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内 容 提 要 

通过 提供 分 布 式 数据 存储 和 并 行 计算 框架 ，Hadoop 已 经 从 一 个 集群 计算 的 抽象 演化 成 了 
一 个 大 数据 的 操作 系统 。 本 书 则 在 通过 以 可 读 且 直观 的 方式 提供 集群 计算 和 分 析 的 概览 ， 为 数 
据 科学 家 深入 了 解 特定 主题 领域 铺 平 道路 ， 从 数据 科学 家 的 视角 介绍 Hadoop 集群 计算 和 分 析 。 
本 书 分 为 两 大 部 分 ， 第 一 部 分 从 非常 高 的 层次 介绍 分 布 式 计算 ,讨论 如 何在 集群 上 运行 计算 ， 
第 二 部 分 则 重点 关注 数据 科学 家 应 该 了 解 的 工具 和 技术 ， 意 在 为 各 种 分 析 和 大 规模 数据 管理 提 
供 动力 。 

本 书 适合 数据 科学 领域 的 从 业 人 员 ， 以 及 对 数据 分 析 感 兴趣 的 研究 人 员 。 
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大 数据 已 经 成 为 一 个 流行 词 。 人 们 用 它 来 描述 数据 驱动 型 应 用 程序 中 的 那些 令 人 兴奋 的 新 
工具 和 新 技术 。 这 些 应 用 程序 正 为 我 们 带 来 细 新 的 计算 方式 。 令 统计 学 家 愧 恼 的 是 ， 这 一 
词语 似乎 被 随意 使 用 ， 其 范围 甚至 包括 在 大 型 数据 集 上 使 用 众所周知 的 统计 技术 进行 预 
测 。 虽 然 大 数据 已 经 成 为 流行 词 ， 但 事实 上 ， 现 代 分 布 式 计算 技术 能 分 析 的 数据 集 远 比 过 
去 那些 “典型 ”方式 能 应 对 的 数据 集 大 得 多 ， 结 果 也 更 令 人 震撼 。 

然而 ， 单 纯 的 分 布 式 计算 并 不 等 于 数据 科学 。 互 联网 带 来 了 快速 增长 的 数据 集 ， 这 些 数据 
集 又 能 驱动 预测 模型 (“更 多 的 数据 优 于 更 好 的 算法 ”')， 数 据 产品 也 因此 成 为 了 一 种 新 型 
的 经 济 范式 。 为 大 型 跨 域 异 构 数据 集 建 模 所 取得 的 巨大 成 功 〈 例 如 Nate Silver 通过 大 数 
据 技 术 像 使 用 魔法 一 般 预 测 了 2008 年 的 美国 大 选 结果 )， 使 很 多 人 认识 到 了 数据 科学 的 价 
值 ， 也 为 这 个 领域 吸引 了 大 量 从 业者 。 

通过 提供 分 布 式 数据 存储 和 并 行 计算 框架 ，Hadoop 已 经 从 集群 计算 的 抽象 演变 成 了 大 数 
据 操 作 系 统 。Spark 正 是 基于 这 一 理念 构建 的 ， 它 使 数据 科学 家 能 更 轻松 地 使 用 集群 计算 。 
然而 ， 不 了 解 分 布 式 计算 的 数据 科学 家 和 分 析 人 员 可 能 会 觉得 这 些 工具 是 面向 程序 员 的 ， 
而 不 是 面向 分 析 人 员 的 。 这 是 因为 ， 我 们 需要 从 根本 上 转变 管理 数据 和 计算 数据 的 思维 方 
式 ， 这 样 才 能 从 串 行 模式 转换 到 并 行 模式 。 

本 书 旨 在 通过 可 读 且 直观 的 方式 介绍 集群 计算 和 分 析 ， 帮 助 数据 科学 家 完成 这 一 思维 转 
换 。 我 们 将 针对 数据 分 析 介 绍 分 布 式 计 算 涉 及 的 大 量 概 念 、 工 具 和 技术 ， 为 深入 了 解 特 定 
领域 铺 平 道路 。 


本 书目 标 


本 书 不 会 详细 讲解 Hadoop (推荐 Tom White 的 《Hadoop 权威 指南 》) ， 也 不 是 Spark 入 门 
资料 (推荐 Holden Karau 等 人 所 著 的 《Spark 快速 大 数据 分 析 》”) ， 当 然 更 不 是 为 了 教 你 如 




















































































































注 1: Anand Rajaraman,“More data usually beats better algorithms” (http://anand.typepad.com/datawocky/2008/ 
03/more-data-usual.html), Datawocky, March 24, 2008. 
注 2: 本 书 已 由 人 民 邮 电 出 版 社 出 版 ，http://www.ituring.com.cn/book/1558。 一 一 编者 注 






































何 进 行 分 布 式 计算 。 本 书 将 纵览 Hadoop 生态 系统 和 分 布 式 计算 ， 旨 在 武装 数据 科学 家 、 
统计 学 家 、 程 序 员 和 对 Hadoop 感 兴趣 (但 是 对 Hadoop 的 了 解 十 分 有 限 ) 的 人 。 和 希望 本 
书 能 成 为 你 深入 Hadoop 世界 的 向 导 ， 助 你 找到 最 感 兴趣 的 工具 和 技术 。 这 可 能 是 Spark、 
Hive、 机 器 学 习 、ETL (抽取 、 转 换 和 加 载 ) 操作 、 关 系数 据 库 或 者 众多 与 集群 计算 相关 
的 主题 之 一 。 


目标 读者 


人 们 经 常 把 数据 科学 与 大 数据 混为一谈 。 虽 然 为 了 达到 良好 的 泛 化 效果 ， 许 多 机 器 学 习 模 
型 确实 需要 大 型 数据 集 ， 但 即使 是 小 型 数据 集 也 能 支持 模式 识别 。 因 此 ， 数 据 科学 软件 类 
的 图 书 大 多 关注 易于 在 一 台 机 器 〈 尤 其 是 内 存 容 量 多 达 几 吉 字 节 的 机 器 ) 上 分 析 的 数据 
集 。 尽 管 大 数据 和 数据 科学 非常 适合 协同 工作 ， 但 是 直到 今天 ， 与 计算 相关 的 图 书 还 是 将 
它们 分 开 讨论 。 

本 书 以 数据 科学 家 为 目标 读者 ， 旨 在 弥补 这 一 隔 疼 。 它 将 以 数据 科学 的 视角 介绍 Hadoop 
集群 计算 和 分 析 。 本 书 的 关注 点 不 是 部 署 、 运 维 或 软件 开发 ， 而 是 常用 分 析 、 数 据 仓储 技 
术 和 高 阶 数据 流 。 

那么 ， 什 么 人 算是 数据 科学 家 呢 ? 本 书 所 说 的 数据 科学 家 是 指 具 有 高 超 统计 技能 的 软件 开 
发 人 员 , 或 者 具有 强大 软件 开发 能 力 的 统计 学 家 。 通 常情 况 下 ， 数 据 团队 由 三 类 数据 科学 
家 组 成 ,分别 是 数据 工程 师 、 数 据 分 析 师 和 领域 专家 。 


数据 工程 师 指 能 构建 或 者 使 用 高 级 计算 系统 的 程序 员 或 者 计算 机 科学 家 。 他 们 通常 使 用 
Python、Java 或 者 Scala 编程 ， 熟 悉 Linux、 服 务 器 、 网 络 、 数 据 库 和 应 用 程序 部 署 。 如 果 
你 是 数据 工程 师 ， 本 书 假设 你 能 适应 多 进程 编程 、 数 据 整 理 和 数值 计算 。 和 希望 你 在 阅读 本 
书后 ， 能 更 了 解 如 何在 集群 上 部 署 应 用 程序 ， 学 会 如 何 处 理 比 单机 在 足够 时 间 内 能 处 理 的 
数据 集 还 要 大 得 多 的 数据 集 。 

数据 分 析 师 主要 关注 统计 建 模 和 探索 性 数据 分 析 。 在 日 常 工作 中 ， 他 们 通常 使 用 R、 
Python 或 者 Julia， 邹 悉数 据 挖掘 和 机 器 学 习 技 术 ， 比 如 回归 、 聚 类 和 分 类 问题 。 数 据 分 析 
师 很 可 能 通过 采样 处 理 过 更 大 的 数据 集 。 我 们 将 在 本 书 中 展示 数据 统计 技术 ， 处 理 比 以 往 
获取 的 数据 量 大 得 多 的 数据 ， 从 而 构建 预测 能 力 既 有 广度 又 有 深度 的 模型 。 

领域 专家 是 团队 里 富有 影响 力 、 面 向 业务 的 成 员 。 他 们 深入 了 解数 据 类 型 和 所 磁 到 的 问 
题 ， 理 解数 据 带 来 的 特定 挑战 ， 并 寻求 通过 更 好 的 方式 利用 数据 应 对 新 挑战 。 希 望 本 书 能 
够 为 他 们 提供 一 些 业 务 决策 思路 ， 让 当前 的 数据 流 更 加 灵活 ， 并 帮助 他 们 理解 怎样 使 用 通 
用 的 计算 框架 来 应 对 特定 的 领域 挑战 。 


Mey :二 多 
阅读 方式 
至 今 为 止 ，Hadoop 已 经 有 十 多 年 的 历史 了 ， 就 技术 而 言 ， 这 已 经 是 很 长 一 段 时 间 了 。 然 
而 ， 摩 尔 定律 仍然 没有 慢 下 来 。10 年 前 ， 在 数据 中 心 使 用 廉价 的 机 器 集群 远 比 为 超级 计算 
机 编程 简单 。 但 现在 ， 同 样 的 廉价 服务 器 要 比 以 前 强大 约 32 倍 ， 内 存 计 算 的 开销 也 降低 
了 很 多 。Hadoop 成 为 了 大 数据 的 操作 系统 ， 支 持 图 形 处 理 、 类 SQL 查询 和 流 处 理 等 多 种 































































































































































































计算 框架 。 但 这 也 给 想 要 学 习 Hadoop 的 人 带 来 了 巨大 的 挑战 一 一 该 从 何 学 起 ? 


本 书 篇 幅 简短 的 原因 只 有 一 个 一 一 想 要 尽 可 能 简洁 地 履 盖 多 个 方面 。 我 们 希望 你 通过 两 种 方 
式 阅 读本 书 : 一 是 快速 通读 全 书 ， 对 Hadoop 和 分 布 式 数据 分 析 有 大 致 了 解 ， 二 是 选择 感 兴 
趣 的 章节 深入 学 习 。 本 书 以 易 懂 为 目的 。 我 们 通过 简单 的 代码 示例 进行 讲解 ， 不 一 定 需 要 你 
亲自 实现 和 运行 代码 。 本 书 是 Hadoop 和 Spark 领域 的 指导 手册 ， 对 分 析 人 员 尤 其 如 此 。 


本 书 旨 在 带领 你 了 解 Hadoop 生态 系统 ， 书 中 内 容 分 为 两 部 分 : 第 一 部 分 (第 1 章 至 第 5 

章 ) 宏观 地 介绍 分 布 式 计算 ， 讨论 如 何在 集群 上 运行 计算 ， 第 二 部 分 (第 6 章 至 第 10 章 ) 

侧重 于 介绍 数据 科学 家 应 该 具体 了 解 的 工具 和 技术 ， 意 在 为 各 种 分 析 和 大 规模 数据 管理 提 

供 动力 。( 第 5 章 将 从 对 分 布 式 计算 的 讨论 过 渡 到 更 加 具体 的 工具 和 大 数据 科学 流水 线 的 

实现 。) 每 章 的 内 容 概述 如 下 。 

第 1 章 数据 产品 时 代 
介绍 大 数据 和 数据 科学 的 结晶 数据 产品 ， 讨 论 创 建 数据 产品 背后 的 流程 ， 说 明 数 据 
分 析 的 串 行 模型 如 何 与 分 布 式 计算 相 契 合 。 

第 2 章 大 数据 操作 系统 
概述 Hadoop 背后 的 核心 概念 ， 讲 解 为 何 集群 计算 既 有 益 又 复杂 ;主要 着 有 眼 于 YARN 和 
HDFS， 详 细 讨 论 Hadoop 体系 架构 ， 讲 解 与 分 布 式 存储 系统 的 交互 ， 为 分 析 大 型 数据 
集 作 准备 。 

第 3 章 Python 框架 和 Hadoop Streaming 
介绍 分 布 式 计算 的 基本 编程 抽象 MapReduce。 然 而 ，MapReduce 的 API 是 用 Java 编写 
的 ， 这 不 是 一 种 在 数据 科学 家 间 流 行 的 编程 语言 。 因 此 ， 这 一 章 专 注 于 介绍 如 何 通过 
Hadoop Streaming 使 用 Python 编写 MapReduce 作业 。 

第 4 章 Spark 内 存 计算 
虽然 理解 MapReduce 对 理解 分 布 式 计 算 和 编写 高 性 能 的 批 处 理 作业 (如 ETL) 十 分 重 
要 ， 但 是 Hadoop 集群 上 的 日 常 交 互 和 分 析 却 通常 都 是 使 用 Spark 完成 的 。 这 一 章 将 介 
绍 Spark， 以 及 如 何 使 用 Python 编写 Spark 应 用 程序 ， 并 通过 PySpark 以 交互 方式 在 
YARN 上 运行 ， 或 者 在 集群 模式 下 运行 。 

第 5 章 分 布 式 分 析 和 模式 
通过 展示 设计 模式 和 并 行 分 析 算 法 ， 从 实践 的 角度 研究 怎样 编写 分 布 式 数据 分 析 作 业 。 
开始 阅读 这 一 章 之 前 ， 你 应 该 已 经 了 解 编写 Spark 和 MapReduce 作业 的 原理 。 读 完 这 
一 章 ， 你 应 该 能 轻松 实现 它们 。 

第 6 章 数据 挖掘 和 数据 仓储 
介绍 分 布 式 环境 下 的 数据 管理 、 数 据 挖掘 和 数据 仓储 ， 特 别 是 与 传统 数据 库 系 统 密切 相 
关 的 方面 。 这 一 章 重点 介绍 Hive 和 HBase， 它 们 分 别 是 Hadoop 最 流行 的 基于 SQL 的 
查询 引擎 和 NoSQL 数据 库 。 数 据 整理 是 数据 科学 流水 线 的 第 二 步 ， 但 是 数据 需要 被 采 
集 到 某 处 。 这 一 章 还 将 探索 怎样 管理 大 型 数据 集 。 
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xi 


第 7 章 数据 采集 
考虑 到 数据 的 容量 和 速度 ， 如 何 将 数据 导入 分 布 式 系统 并 用 于 计算 可 能 才 是 最 大 的 挑 
战 之 一 。 这 一 章 将 研究 从 关系 数据 库 获取 数据 的 批量 加 载 工 具 Sqoop 以 及 更 灵活 的 
Apache Flume， 后 者 用 于 获取 日 志和 来 自 网 络 的 其 他 非 结 构 化 数据 。 

第 8 章 使 用 高 级 API 进行 分 析 
研究 用 于 编写 复杂 Hadoop 和 Spark 应 用 程序 的 高 阶 工具 ， 尤 其 是 Apache Pig 和 Spark 
的 DataFrame API。 第 一 部 分 将 讨论 MapReduce 和 Spark 分 布 式 作业 的 实现 过 程 ， 以 及 
怎样 从 数据 流 的 角度 看 待 算法 和 数据 流水 线 。Pig 让 你 无 须 使 用 MapReduce 实现 底层 细 
市 ， 从 而 能 更 轻松 地 描述 数据 流 。Spark 提供 了 多 个 集成 模块 ， 能 无 颖 结合 过 程式 处 理 
与 关系 查询 ， 为 强大 的 分 析 定 制 打开 了 大 门 。 


第 9 章 机 器 学 习 
大 数据 的 多 数 益 处 都 是 在 机 器 学 习 中 得 以 实现 的 更 加 广泛 的 特征 和 输入 空间 让 模式 
识别 技术 更 加 有 效 和 个 性 化 。 这 一 章 将 介绍 分 类 、 聚 类 和 协同 过 滤 ， 但 并 不 会 详细 讨论 
建 模 ， 而 是 使 用 Spark 的 MLlib 让 你 上 手 可 扩展 机 器 学 习 技术 。 

第 10 章 总 结 : 分 布 式 数据 科学 实战 
完整 呈现 分 布 式 数据 科学 ， 把 前 面 章节 中 单独 讨论 的 工具 与 技术 结合 起 来 。 数 据 科 学 不 
是 单一 的 活动 ， 而 是 一 个 生命 周期 ， 涉 及 数据 的 采集 、 整 理 、 建 模 、 计 算 和 操作 化 。 这 
一 章 将 从 整体 上 讨论 分 布 式 数据 科学 的 架构 和 工作 流 。 

附录 A 创建 Hadoop 伪 分 布 式 开发 环境 
附录 A 将 指导 你 在 本 机 上 搭建 一 个 开发 环境 ， 从 而 编写 分 布 式 作业 。 如 果 你 没有 集群 
可 用 ， 附 录 A 是 运行 本 书 示 例 至 关 重 要 的 准备 工作 。 

附录 B 安装 Hadoop 生态 系统 产品 
附录 B 是 附录 A 的 延伸 ， 将 提供 本 书 讨论 的 众多 生态 系统 工具 和 产品 的 安装 指导 。 尽 
管 附 录 A 提供 了 安装 服务 的 常用 方法 ， 但 附录 B 专门 为 安装 服务 (用 来 运行 书 中 示例 ， 
你 在 阅读 的 过 程 中 会 遇 到 它们 ) 的 过 程 中 会 遇 到 的 问题 提供 指导 。 

你 看 ， 这 么 薄 的 一 本 书 却 涵盖 了 这 么 多 主题 。 希 望 以 上 这 些 内 容 足 以 吸引 你 继续 阅读 

平 去 : 


编程 和 示例 代码 


随 着 Hadoop 的 分 布 式 计算 变 得 更 加 成 熟 和 集成 化 ， 并 行 计算 正在 向 更 丰富 的 分 析 体验 转 
变 。 例 如 ， 大 数据 生态 系统 的 最 新 成 员 Spark 提供 了 4 种 语言 的 编程 API， 更 方便 那些 习 
惯 于 使 用 数据 框 、 交 互 式 notebook 和 解释 型 语言 的 数据 科学 家 使 用 。Hive 和 SparkSQL 
以 SQL 语法 形式 提供 了 另外 一 种 为 人 们 所 熟知 的 领域 专用 语言 (domain-specific language， 
DSL)， 专 门 针 对 分 布 式 集群 上 的 数据 查询 。 

因为 本 书 的 目标 读者 是 数据 科学 家 ， 所 以 我 们 大 多 选择 使 用 Python 来 实现 示例 。Python 是 
通用 的 编程 语言 ， 拥 有 丰富 的 分 析 包 (例如 Pandas 和 Scikit-Learn)， 在 数据 科学 领域 占有 
一 席 之 地 。 不 幸 的 是 ，Hadoop 的 主要 API 通常 都 是 以 Java 编写 的 ， 那 些 Python 示例 让 我 
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xii 且 后 


们 大 费 周章 ， 但 是 大 多 数 时 候 ， 我 们 会 用 更 实际 的 方式 来 阐明 思想 。 因 此 ， 本 书 中 的 代码 
要 么 是 使 用 Python 和 Hadoop Streaming 的 MapReduce， 要 么 是 使 用 PySpark API 的 Spark 
代码 ， 或 者 是 讨论 Hive、Spark SQL 时 的 SQL 代码 。 希 望 这 能 让 更 多 读者 感觉 简明 易 懂 。 


GitHub 仓 库 


你 可 以 在 我 们 的 GitHub 仓库 (https://github.com/bbengfort/hadoop-fundamentals) 找到 
本 书 完整 且 可 执行 的 示例 代码 。 这 个 仓库 也 包含 了 我 们 的 Hadoop 视频 教程 “Hadoop 
Fundamentals for Data Scientists”，” 的 代码 。 


为 了 在 纸 质 版 中 呈现 代码 并 更 清楚 地 解释 过 程 ， 我 们 走 了 捷径 ， 省 略 了 代码 的 细节 。 例 
如 ， 通 常 都 省 略 了 import 语句 一 一 这 意味 着 简单 的 复制 粘贴 无 法 奏效 。 然 而 ， 你 可 以 使 用 
仓库 中 的 例子 ， 它 们 是 完整 且 可 执行 的 代码 ， 并 附 有 相应 的 注释 。 


但 要 注意 ， 仓 库 是 持续 更 新 的 ， 可 以 查阅 README 文件 以 了 解 更 新 情况 。 你 当然 可 以 
fork 仓库 ， 更 改 代 码 以 在 你 自己 的 环境 中 运行 一 一 我 们 强烈 推荐 你 这 样 做 1 


执行 分 布 式 作业 


Hadoop 开发 人 员 通 常 在 “ 伪 分 布 式 模式 ”下 使 用 “ 单 节 点 集群 ”进行 开发 任务 。 该 集 
群 通常 是 一 个 运行 着 虚拟 服务 器 环境 的 虚拟 机 ， 环 境 中 运行 着 多 个 Hadoop 守护 进程 。 
你 可 以 在 主 开发 工具 里 使 用 SSH 访问 该 虚拟 机 ， 就 像 访 问 Hadoop 集群 一 样 。 为 了 创 
建 虚 拟 环境 ， 你 需要 革 种 虚拟 化 软件 ， 例 如 VirtualBox (https://www.virtualbox.org) 2 
VMWare (http:/www.vmware.com/products/desktop-virtualization) 或 者 Parallels (http:// 







































































www.parallels.com ) 。 


附录 A 讨论 怎样 设置 以 伪 分 布 式 模式 运行 Hadoop、Hive 和 Spark 的 Ubuntu x64 虚拟 机 。 
你 也 可 以 使 用 一 些 Hadoop 发 行 版 (例如 Cloudera 和 Hortonworks) 提供 的 预先 配置 好 的 
虚拟 环境 。 如 果 你 有 想 用 的 虚拟 机 环境 ， 那 么 我 们 建议 你 下 载 它 。 如 果 你 想 了 解 更 多 的 
Hadoop 操作 ， 就 请 自己 配置 吧 ! 


还 有 一 点 ， 因 为 Hadoop 集群 是 在 开源 软件 上 运行 的 ， 所 以 你 需要 了 解 Linux 和 命令 行 。 
本 书 讨论 的 虚拟 机 通常 都 是 通过 命令 行 访问 的 ， 书 中 的 许多 例子 都 描述 了 通过 命令 行 与 
Hadoop、Spark、Hive 和 其 他 工具 交互 的 过 程 。 命 令 行 是 分 析 人 员 不 愿 使 用 这 些 工具 的 一 
个 主要 原因 。 然 而 ， 学 习 命 令 行 对 你 大 有 帮助 ， 它 也 并 不 可 怕 。 我 们 建议 你 学 习 一 下 1! 


使 用 示例 代码 


本 书 是 要 帮 你 完成 工作 的 。 一 般 来 说 ， 如 果 本 书 提供 了 示例 代码 ， 你 可 以 把 它 用 在 你 的 程 
序 或 文档 中 。 除 非 你 使 用 了 很 大 一 部 分 代码 ， 否 则 无 须 联系 我 们 获得 许可 。 比 如 ， 用 本 书 
的 几 个 代码 片段 写 一 个 程序 就 无 须 获 得 许可 ， 销 售 或 分 发 O'Reilly 图 书 的 示例 光盘 则 需要 
获得 许可 ， 引 用 本 书 中 的 示例 代码 回答 问题 无 须 获 得 许可 ， 将 书 中 大 量 的 代码 放 到 你 的 产 
品 文档 中 则 需要 获得 许可 。 



































注 3: http://shop.oreilly.com/product/0636920035183.do. 








我 们 很 希望 但 并 不 强制 要 求 你 在 引用 本 书 内 容 时 加 上 引用 说 明 。 引 用 说 明 一 般 包 括 书 名 、 
作者 、 出 版 社 和 ISBN， 比 如 “Data Analytics w Hadoop by Benjamin Bengfort and Jenny 
Kim (O’Reilly). Copyright 2016 Benjamin Bengfort and Jenny Kim, 978-1491-91370-3”。 


如 果 你 觉得 自己 对 示例 代码 的 用 法 超出 了 上 述 许 可 的 范围 ， 欢 迎 你 通过 permissions@ 
oreilly.com 与 我 们 联系 。 


反馈 及 作者 联系 方式 


关于 本 书 的 评论 和 技术 性 问题 ， 请 发 送 电 子 邮件 至 bookquestions@oreilly.com。 
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第 一 部 分 


分 布 式 计算 入 门 





本 书 第 一 部 分 将 介绍 如 何 使 用 Hadoop 进行 大 数据 的 分 布 式 计算 : 第 工 章 引入 数据 产品 
的 构建 对 分 布 式 计算 的 需求 ， 并 讨论 在 数据 科学 领域 使 用 Hadoop 的 主要 工作 流 和 时 机 ， 
第 2 章 深 入 讲解 分 布 式 存储 和 分 布 式 计算 在 需求 方面 的 技术 细节 ， 并 解释 Hadoop 成 为 
大 数据 操作 系统 的 原因 ; 第 3 章 和 第 4 章 分 别 介绍 使 用 MapReduce 和 Spark 的 分 布 式 编程 ， 
第 5 章 从 数据 科学 家 分 析 大 型 数据 集 的 角度 探讨 MapReduce 和 Spark 中 常见 的 计算 和 模式 。 




















第 1 章 


数据 产品 时 代 





我 们 生活 在 一 场 信息 革命 之 中 。 和 任何 经 济 革 命 一 样 ， 它 对 社会 、 学 术 界 和 商界 都 造成 了 
极 具 变革 性 的 影响 。 眼 前 这 场 革命 由 网 络 通信 系统 和 互联 网 驱动 ， 其 独特 之 处 在 于 创造 了 
大 量 有 价值 的 新 材料 一 一 数据 ， 并 将 所 有 人 转变 成 了 消费 者 和 生产 者 。 每 天 都 有 海量 的 数 
据 生成 ， 数 据 也 日 益 影响 着 生活 的 各 个 方面 ， 从 吃 的 食物 ， 到 社交 活动 ， 再 到 工作 和 娱乐 
的 方式 。 同 样 ， 我 们 也 对 产品 和 服务 有 了 合理 的 期 望 ， 比 如 高 度 个 性 化 ， 或 能 针对 我 们 的 
身体 、 生 活 和 职业 进行 优化 。 这 为 一 项 狐 新 的 信息 技术 创造 了 市 场 一 数据 产品 。 


过 剩 的 数据 集 与 机 器 学 习 算 法 快速 敏捷 地 结合 ， 这 不 仅 改变 了 人 们 与 日 常事 物 的 交互 方 
式 ， 也 改变 了 彼此 打交道 的 方式 ， 因 为 这 一 结合 经 常 带 来 立竿见影 且 富 有 新 意 的 成 果 。 的 
确 ， 大 量 的 模型 和 数据 源 似乎 带 来 了 无 穷 无 尽 的 创新 ， 围 绕 “ 大 数据 ”这 一 热 词 的 趋势 正 
与 此 有 关 。 

数据 产品 通过 数据 科学 工作 流 创建 ， 具 体 来 说 ， 是 将 模型 (通常 是 预测 性 的 或 推断 性 的 ) 
应 用 于 特定 领域 的 数据 集 。 虽 然 创 新 的 潜力 是 巨大 的 ， 但 是 发 现 数据 产 并 正确 建 模 或 挖掘 
模式 需要 科学 性 或 实验 性 的 思维 模式 ， 而 程序 员 和 分 析 人 员 通 常 不 具备 这 一 能 力 。 也 正 是 
出 于 这 个 原因 ， 雇 用 博士 确实 省 时 省 力 一 一 他 们 经 过 必要 的 分 析 和 实验 训练 ， 结 合 编程 ， 
基本 立即 就 能 成 为 数据 科学 专业 人 才 。 当 然 ， 我 们 不 可 能 都 是 博士 。 因 此 ， 本 书 提出 了 一 
个 将 Hadoop 用 于 大 规模 数据 科学 的 教学 模型 ， 并且 将 其 作为 构建 应 用 程序 的 基础 ， 这 些 
应 用 程序 正 是 (或 可 以 成 为 ) 数据 产品 。 


1.1 什么 是 数据 产品 


这 个 问题 的 传统 答案 通常 是 :“ 任 何 将 数据 和 算法 结合 起 来 的 应 用 程序 。” 但 坦白 说 ， 如 果 













































































注 1: Hillary Mason and Chris Wiggins, “A Taxonomy of Data Science” (http://www.dataists.com/2010/09/ 


a-taxonomy-of-data-science/), Dataists, September 25, 2010. 


你 编写 的 软件 没有 将 数据 与 算法 结合 在 一 起 ， 那 么 你 在 做 什么 呢 ? 毕 竞 数据 可 是 编程 界 的 
“货币 ”! 具体 来 说 ， 数 据 产品 就 是 数据 与 用 于 推断 或 预测 的 统计 算法 的 结合 。 许 多 数据 科 
学 家 也 是 统计 学 家 ， 统 计 方 法 论 是 数据 科学 的 核心 。 

根据 这 个 定义 ，Amazon 的 推荐 系统 就 是 一 个 数据 产品 。Amazon 会 检查 你 购买 的 商品 ， 并 
根据 其 他 用 户 类 似 的 购买 行为 作出 推荐 。 在 这 种 情况 下 ， 将 订单 历史 数据 与 推荐 算法 相 结 
合 ， 就 能 预测 你 将 来 可 能 购买 什么 。Facebook 的 “你 可 能 认识 的 人 ”也 是 一 个 数据 产品 ， 
因为 它 “ 基 于 共同 的 好 友 、 工 作 、 教 育 信 息 以 及 许多 其 他 因素 向 你 推荐 好 友 ” 一 一 这 本 质 
上 是 结合 社交 网 络 数据 与 图 算法 来 推断 社区 成 员 。 

这 两 个 产品 分 别 在 零售 业 和 社交 网 络 领域 具有 革命 性 意义 ， 但 它们 看 上 去 与 其 他 Web 应 用 
程序 没什么 不 同 。 的 确 ， 简 单 地 将 数据 产品 定义 为 数据 与 统计 算法 的 结合 ， 似 乎 将 其 限制 
为 了 单一 的 软件 类 型 (如 Web 应 用 程序 )， 这 很 难 成 为 一 股 革命 性 的 经 济 力量 。 虽 然 可 以 
说 Google 或 其 他 公司 是 庞大 的 经 济 力量 ， 但 是 仅 将 收集 庞大 HTML 语料库 的 Web 爬虫 与 
PageRank 算法 结合 却 不 能 创造 数据 经 济 。 众 所 周知 ， 搜 索 在 经 济 活 动 中 起 到 了 重要 作用 ， 
因此 上 述 定义 一 定 有 缺失 。 


Mike Loukides 认为 ， 数 据 产品 不 仅仅 是 “数据 驱动 的 应 用 程序 ”。 虽 然 博客 、 电 子 商 务 
平台 以 及 大 多 数 Web 应 用 程序 和 移动 应 用 程序 都 依赖 于 数据 库 和 数据 服务 (如 RESTful 
API) ,但 它们 只 使 用 数据 ， 其 本 身 并 不 构成 数据 产品 。 他 对 数据 产品 的 定义 如 下 。? 
数据 应 用 程序 从 数据 本 身 获取 价值 ， 然 后 创造 更 多 数据 。 它 不 仅仅 是 带 有 数据 的 
应 用 程序 ， 而 是 数据 产品 。 


这 是 一 场 革命 ， 数 据 产品 则 是 经 济 引 擎 。 它 从 数据 中 获取 价值 ， 作 为 回报 ， 再 产生 更 多 的 
数据 和 价值 。 它 产生 的 数据 可 为 自己 添加 燃料 (我 们 终于 实现 了 永 动机 )， 或 者 催生 其 他 
数据 产品 ， 这 些 数据 产品 从 生成 的 数据 中 获取 价值 。 正 是 这 一 过 程 带 来 了 信息 过 剩 和 信息 
革命 。 更 重要 的 是 ， 这 种 生成 效应 让 我 们 通过 数据 过 上 了 更 好 的 生活 ， 因 为 更 多 的 数据 产 
品 意味 着 更 多 的 数据 ， 更 多 的 数据 意味 着 更 多 的 数据 产品 ， 循 环 往复 。 

有 了 这 个 更 具体 的 定义 ， 我 们 就 可 以 更 进一步 ， 将 数据 产品 描述 为 一 个 从 数据 中 学 习 、 自 
适应 并 且 广 泛 适用 的 系统 。 根 据 这 个 定义 ，Nest 恒温 器 算是 数据 产品 : 它 从 传感器 数据 中 
获取 价值 ， 决 定制 热 或 制冷 ， 并 且 收 集 新 的 传感器 数据 以 检验 调 市 效果 。 由 斯 坦 福 大 学 的 
无 人 驾驶 团队 研制 的 无 人 驾驶 汽车 也 属于 这 一 类 。 该 团队 通过 算法 实现 机 器 视觉 并 模拟 驾 
驶 员 行为 ， 因 此 车 辆 在 行驶 时 能 产生 更 多 导航 数据 和 传感器 数据 ， 这 些 数据 可 用 于 改进 驾 
驶 平台 。 此 外 ， 由 Fitbit、Withings 和 许多 其 他 公司 发 起 的 “量化 自我 ”产品 意味 着 数据 可 
以 影响 人 类 行为 ， 智 能 电网 意味 着 数据 会 影响 你 的 效能 。 

数据 产品 是 自 适 应 且 广 泛 适用 的 经 济 引 擎 。 它 从 数据 中 获取 价值 ， 并 通过 影响 人 类 行为 或 
通过 基于 新 数据 的 推断 或 预测 产生 更 多 数据 。 数 据 产品 不 只 是 Web 应 用 程序 ， 它 正 迅 速成 
为 现代 社会 几乎 每 一 个 经 济 活动 领域 的 重要 组 成 部 分 。 数 据 产品 能 够 发 现 人 类 活动 中 的 个 
体 模式 ， 所 以 它 能 推动 决策 ， 由 它 引 发 的 行动 和 影响 也 会 被 记录 为 新 的 数据 。 





































































































注 2: Mike Loukides, “What is Data Science?” (https://www.oreilly.com/ideas/what-is-data-science), O’Reilly Radar, 
June 2, 2010. 
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1.2 ”使 用 Hadoop 构 建 大 规模 数据 产品 


Josh Wills 经 常 被 引用 的 推 文 ”给 我 们 提供 了 以 下 定义 。 


数据 科学 家 (名词 ) : 指 比 所 有 软件 工程 师 更 擅长 统计 学 ， 并 且 比 所 有 统计 学 家 
更 擅长 软件 工程 的 人 。 


当然 ， 这 与 数据 产品 仅仅 是 数据 与 统计 算法 的 结合 这 一 想法 十 分 吻合 。 软 件 工程 和 统计 学 
知识 都 是 数据 科学 的 基础 。 然 而 ， 在 一 个 需要 产品 从 数据 中 获取 价值 并 产生 新 数据 的 经 六 
体系 中 ， 构 建 数据 产品 其 实 就 是 数据 科学 家 的 工作 。 


Harlan Harris 提供 了 有 关 数据 产 品 的 更 多 细节 “: 它们 建立 在 数据 、 领 域 知识 、 软 件 工程 和 
分 析 技术 的 交叉 点 上 。 由 于 数据 产品 是 系统 ， 因 此 构建 它们 需要 工程 技能 ， 通 常 是 软件 工 
程 方面 的 技能 ， 由 于 它们 由 数据 驱动 ， 因 此 拥有 数据 是 必要 条 件 ， 领 域 知 识 和 分 析 技术 是 
用 于 构建 数据 引擎 的 工具 ， 通 常 通过 实验 完成 ， 因 此 是 数据 科学 的 “科学 ”部 分 。 


由 于 需要 使 用 实验 方法 学 ， 因 此 大 多 数 数据 科学 家 会 采用 典型 的 分 析 工 作 流 : 采集 一 整 
理 一 建 模 一 报告 和 可 视 化 。 然 而 ,这 种 所 谓 的 数据 科学 流水 线 完全 由 人 力 驱 动 ， 再 辅 以 
脚本 语言 (如 R 和 Python) 的 使 用 。 流 水 线 的 每 一 个 环节 都 需要 人 类 的 知识 和 分 析 技 能 ， 
意 在 产生 独特 且 不 可 泛 化 的 结果 。 虽 然 这 个 流水 线 是 很 好 的 统计 和 分 析 基 础 框架 ,但 它 不 
能 满足 构建 数据 产品 的 需求 ， 特 别 是 当 想 从 中 获取 价值 的 目标 数据 大 到 无 法 在 一 台 笔记 本 
电脑 上 处 理 时 。 随 着 数据 越 来 越 多 、 越 来 越 多 变 、 产 生 的 速度 越 来 越 快 ， 自 动 获取 有 用 信 
息 而 无 须 人 工 干 预 的 工具 也 变 得 越 来 越 重要 。 


1.2.1 利用 大 型 数据 集 
直觉 告诉 我 们 ， 观 测 越 多 ， 数 据 就 越 多 一 一 这 真 让 人 喜忧参半 。 人 类 拥有 发 现 大 规模 模式 
的 卓越 能 力 (我 们 以 森林 和 林 中 空地 作为 隐喻 )。 理 解数 据 的 认 知 过 程 涉及 概览 数据 ， 深 
入 研究 具体 层面 的 细节 ， 然 后 再 回 到 概览 角度 。 这 个 过 程 中 的 细节 并 不 一 定 可 靠 ， 因 为 细 
粒度 (隐喻 中 的 叶子 、 分 枝 或 单 棵 树木 ) 会 限制 我 们 的 理解 能 力 。 多 数 数据 既 可 能 是 模式 
和 信号 ， 也 可 能 是 噪声 和 干扰 。 

通过 聚合 和 索引 描述 数据 ， 或 者 直接 对 数据 建 模 ， 统 计 方 法 使 我 们 能 够 处 理 掺 灯 着 噪声 和 
信号 的 数据 。 虽 然 这 些 技 术 能 帮助 我 们 理解 数据 ， 但 是 它们 以 牺牲 计算 粒度 为 代价 ， 例 如 
有 意义 的 罕见 事件 可 能 会 被 模型 排除 。 兼 顾 罕 见 事件 的 统计 技术 能 利用 计算 机 同时 跟踪 多 
个 数据 点 ， 但 也 需要 更 多 的 计算 资源 。 因 此 ， 传 统 的 统计 方法 会 对 较 大 的 数据 集 采 取 抽 样 
方法 ， 用 较 小 的 数据 子 集 替代 总 体 。 样 本 越 大 ， 模 型 包括 罕见 事件 且 能 将 其 捕获 的 可 能 性 
就 越 大 。 

随 着 收集 数据 的 能 力 越 来 越 高 ， 我 们 对 通用 性 也 有 了 更 大 的 需求 。 过 去 十 年 间 ， 由 于 数据 
和 机 器 学 习 算法 的 紧密 结合 ， 新 颖 的 成 果 纷 纷 问 世 ， 数 据 科学 得 到 了 空前 的 发 展 。 智 能 电 
网 、“ 量 化 自我 "、 移 动 技术 、 传 感 器 和 互联 察 庭 要求 我 们 应 用 个 性 化 的 统计 推 新 。 规 模 不 




























































































































































































注 3: https://twitter.com/josh_wills/status/198093512149958656. 
注 4: Harlan Harris, “What Is a Data Product?” , Analytics 2014 Blog, March 31, 2014. 
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仅 与 数据 量 有 关 ， 也 与 需要 探索 多 少 方面 有 关 一 一 就 好 像 森 林 中 的 每 棵 树 一 样 。 


Google 的 两 篇 论文 描述 了 一 个 完整 的 分 布 式 计算 系统 ，Hadoop 是 其 开源 实现 ， 它 将 我 们 
带 入 了 大 数据 时 代 。 然 而 ， 分 布 式 计 算 和 分 布 式 数据 库 系统 并 不 是 新 的 话题 。 在 那 两 篇 
论文 发 表 之 前 ， 与 Hadoop 的 计算 能 力 相 当 的 数据 仓库 系统 就 早已 存在 于 工业 界 和 学 术 
界 。Hadoop 之 所 以 与 众 不 同 ， 一 方面 是 因为 数据 处 理 能 带 来 经 济 效 益 ， 另 一 方面 是 因为 
Hadoop 是 一 个 平台 。 但 是 真正 使 Hadoop 独树一帜 的 原因 其 实 是 它 出 现 的 时 机 一 一 恰恰 
在 一 个 需要 大 规模 数据 分 析 解 决 方案 的 时 刻 ， 它 问世 了 。 而 且 它 不 仅 能 分 析 总 体 的 统计 数 
据 ， 还 能 获得 个 体 级 别 的 通用 性 和 洞察 力 。 


1.2.2 ”数据 产品 中 的 Hadoop 


一 开始 ，Hadoop 的 使 用 者 是 那些 面临 大 数据 挑战 的 大 公司 ， 比 如 Google、Facebook 和 
Yahoo。 然 而 ，Hadoop 之 所 以 这 么 重要 ， 以 及 促使 你 拿 起 本 书 的 原因 ， 恰 恰 是 因为 面临 
数据 挑战 的 不 再 只 是 科技 巨 壁 。 大 大 小 小 的 商业 机 构 和 政府 机 构 从 企业 到 创业 公司 ， 
再 到 联邦 机 构 和 市 政府 ， 甚 至 是 每 个 人 ， 都 面临 着 数据 挑战 。 计 算 资 源 变 得 廉价 且 唾 手 
可 得 一 一 就 像 PC 时 代 的 黑客 在 车 库 里 使 用 手边 的 电子 产品 搞 创新 ， 现 在 的 创业 公司 使 用 
10 节点 ~ 20 节点 的 小 集群 在 数据 探索 上 搞 创 新 。 云 计算 资源 〈 如 Amazon EC2 和 Google 
Compute Engine) 使 数据 科学 家 可 以 及 时 、 按 需 地 访问 大 规模 集群 ， 而 且 成 本 较 低 ， 也 无 
须 进 行 数 据 中 心 管理 。Hadoop 使 大 数据 计算 更 贴近 大 众 ， 也 更 平易 近 人 ， 下 面 的 例子 说 
明了 这 一 点 。 


2011 年 ，Lady Gaga 发 行 了 她 的 专辑 Born This Way， 这 个 事件 为 社交 媒体 带 来 了 约 1.3 万 
亿 条 信息 ， 包 括 点 赞 、 推 文 、 图 像 和 视频 。Lady Gaga 的 经 纪 人 Troy Carter 马上 发 现 了 一 
个 将 粉丝 聚集 起 来 的 机 会 。 经 过 大 量 的 数据 挖掘 工作 ， 他 成 功 将 Twitter 和 Facebook 上 的 
数 百 万 粉丝 聚集 到 了 LittleMonsters.com 这 个 只 针对 Lady Gaga 的 小 社交 网 络 中 。 该 网 站 的 
成 功 促使 Backplane (现在 叫 Place) 诞生 ， 这 是 一 个 用 于 生成 和 管理 由 小 型 社区 驱动 的 社 
交 网 络 的 工具 。 


2015 年 ， 纽 约 市 警察 局 安装 了 一 个 价值 150 万 美元 的 声学 传感器 网 络 ， 名 吊 ShotSpotter。 
该 系统 能 够 检测 与 爆炸 或 枪击 相关 的 脉冲 声 ， 使 应 急 响 应 人 员 能 够 快速 响应 在 布朗 克 斯 区 
发 生 的 事件 。 重 要 的 是 ， 这 个 系统 还 很 智能 ， 可 以 预测 是 否 会 发 生 后 续 的 枪击 事件 及 其 大 
致 位 置 。ShotSpotter 系统 发 现 ， 自 2009 年 以 来 ， 有 超过 75% 的 枪击 事件 没有 报告 给 警察 。 
“量化 自我 ”运动 越 来 越 受 欢迎 ， 各 家 公司 也 一 直 努 力 在 消费 者 中 广泛 普及 可 穿戴 技术 设 
备 、 个 人 数据 收集 设备 ， 甚 至 是 基因 测序 仪器 。2012 年 ， 美 国 的 《平价 医疗 法 案 》 规 定 健 
康 计划 对 电子 病历 实施 标准 化 、 安 全 、 保 密 的 共享 方法 。 互 联 家 庭 、 移 动 设 备 以 及 其 他 个 
人 传感器 每 天 都 在 产生 大 量 个 人 数据 ， 这 引发 了 人 们 对 隐私 的 关注 。2015 年 ， 英 国 研究 人 
员 创建 了 Hub of41 Things (HAT)。 这 是 一 项 个 性 化 的 数据 集合 技术 ， 用 于 处 理 “ 谁 拥有 
你 的 数据 ”这 一 问题 ， 并 为 个 人 数据 的 聚合 提供 技术 解决 方案 。 

传统 上 ， 大 规模 的 个 人 数据 分 析 一 直属 于 社交 网 络 的 范畴 ， 如 Facebook 和 Twitter。 但 幸 
好 有 了 Place， 大 型 社交 网 络 现在 成 为 了 个 人 品牌 和 艺术 家 的 诞生 之 地 。 每 个 城市 面临 的 
数据 挑战 都 不 一 样 ， 尽 管 针 对 典型 城市 的 泛 化 可 以 满足 许多 分 析 的 需求 ， 但 是 新 的 数据 挑 

























































































































































































数据 产品 时 代 | 5 





战 仍然 不 断 出 现 ， 对 每 个 城市 分 别 进行 研究 势 在 必 行 。( 比 如 工业 、 航 运 或 天 气 对 声学 传 
感 器 网 络 有 什么 影响 ?”) 怎样 使 技术 为 消费 者 提供 价值 ， 在 使 用 他 们 的 个 人 医疗 记录 时 不 
侵犯 他 们 的 隐私 ， 避 免 与 其 他 人 的 记录 聚合 ?怎样 使 个 人 医疗 诊断 数据 挖掘 变 得 更 安全 ? 


数据 产品 的 出 现 正 是 为 了 切实 回答 这 些 问题 。Place、ShotSpotter、“ 量 化 自我 ”产品 和 
HAT 等 通过 提供 应 用 程序 平台 和 决策 资源 供 人 们 采取 行动 ， 从 数据 中 获取 价值 并 产生 新 数 
据 。 它 们 提供 的 价值 是 明确 的 ， 但 要 处 理 数 万 亿 的 点 赞 数据 和 数 百 万 个 麦克 风 生 成 的 大 量 
数据 集 ， 或 者 我 们 每 天 生成 的 海量 个 人 数据 ， 传 统 的 软件 开发 工作 流 无 法 应 对 这 一 挑战 。 
大 数据 工作 流 和 Hadoop 使 这 些 应 用 程序 成 为 可 能 并 且 可 个 性 化 。 


1.3 ”数据 科学 流水 线 和 Hadoop 生 态 系统 


数据 科学 流水 线 是 一 种 教学 模型 ， 用 于 教授 对 数据 进行 全 面 统 计 分 析 所 需 的 工作 流 ， 如 图 
1-1 所 示 。 在 每 个 环节 中 ， 分 析 人 员 要 转换 初始 数据 集 ， 然 后 从 各 种 数据 源 增强 或 采集 数 
据 ， 再 通过 描述 性 或 推断 性 的 统计 方法 将 数据 整理 为 可 以 计算 的 正常 形式 ， 最 后 通过 可 视 
化 或 报告 的 形式 生成 结果 。 这 些 分 析 过 程 通常 用 于 回答 特定 问题 ,或 用 于 调查 数据 与 某 些 
业务 实践 则 的 关系 ， 以 进行 验证 或 决策 。 























































































































图 1-1: 数据 科学 流水 线 


这 个 原始 的 工作 流 模型 引领 了 大 多 数 早期 的 数据 科学 思想 。 最 初 关于 数据 科学 应 用 程序 的 
讨论 围绕 着 如 何 创建 有 意义 的 信息 可 视 化 一 一 这 也 许 令 人 意外 ， 主 要 是 因为 这 个 工作 流 叶 
在 生成 帮助 人 们 进行 决策 的 依据 。 通 过 对 大 型 数据 集 的 聚合 、 描 述 和 建 模 ， 人 们 能 够 更 好 
地 根据 模式 (而 不 是 单个 数据 点 ) 作出 判断 。 数 据 可 视 化 是 新 生 的 数据 产品 ， 它 们 从 数据 
中 产生 价值 ， 帮 助人 们 基于 学 习 到 的 内 容 采取 行动 ， 然 后 再 从 这 些 行 动 中 生成 新 数据 。 
然而 ， 面 对 呈 指 数 增长 的 数据 量 和 数据 增长 速度 ， 这 种 以 人 力 驱动 的 模型 并 不 是 一 个 可 扩 
展 的 解决 方案 ， 这 也 正 是 许多 企业 都 为 之 抓 狂 的 原因 。 根 据 预测 ， 到 2020 年 ， 我 们 每 年 
生成 和 复制 的 数据 将 达到 44ZB， 即 44 万 亿 GB。 即使 实际 规模 只 达到 预测 规模 的 一 小 部 
分 ， 手 动 的 数据 准备 和 挖掘 方法 也 根本 无 法 及 时 提供 有 意义 的 信息 。 

除了 规模 上 的 局 限 ， 这 种 以 人 为 中 心 的 单 向 工作 流 也 不 能 有 效 地 设计 能 够 学 习 的 自 适应 系 
统 。 机 器 学 习 算 法 已 经 广泛 应 用 于 学 术 界 之 外 ， 非 常 符合 数据 产品 的 定义 。 因 为 模型 会 拟 
合 现 有 的 数据 集 ， 所 以 这 些 类 型 的 算法 可 以 从 数据 中 获取 价值 ， 然 后 通过 对 新 的 观察 值 作 
出 预测 来 产生 新 的 数据 。 



























































注 5: EMC Digital Universe with Research & Analysis by IDC, “The Digital Universe of Opportunities” (https:// 


www.emc.com/leadership/digital-universe/2014iview/executive-summary.htm), April 2014. 
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如 有 果 要 创建 一 个 框架 ， 支 持 构建 可 扩展 和 可 自动 化 的 解决 方案 ， 从 而 能 解释 数据 和 生成 有 
用 的 信息 ， 就 必须 修改 数据 科学 流水 线 ， 使 其 包含 机 器 学 习 方 法 的 反馈 循环 。 


大 数据 工作 流 

考虑 到 可 扩展 性 和 自动 化 的 目标 ， 我 们 可 以 将 人 力 驱 动 的 数据 科学 流水 线 重 构 为 包括 采 
集 、 分 段 、 计 算 和 工作 流 管理 这 4 个 主要 阶段 的 迭代 模型 (如 图 1-2 所 示 )。 与 数据 科学 流 
水 线 一 样 ， 这 种 模型 其 实 就 是 采集 原始 数据 并 将 其 转换 为 有 用 的 信息 。 关 键 的 区 别 在 于 ， 
数据 产品 流水 线 是 在 操作 化 和 自动 化 工作 流 的 步骤 中 构建 起 来 的 。 通 过 将 采集 、 分 段 和 计 
算 这 3 个 步骤 转换 为 自动 化 工作 流 ， 最 终 产 生 可 重用 的 数据 产品 。 工 作 流 管理 步骤 还 引入 
了 反馈 流 机 制 ， 来 自 其 中 一 个 作业 执行 的 输出 可 以 自动 作为 下 一 次 迭代 的 数据 输入 ， 因 此 
为 机 器 学 习 应 用 程序 提供 了 必要 的 自 适 应 框架 。 


用 
Ce) 0 人 人 2 
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图 1-2: 大 数据 流水 线 


采集 阶段 既是 模型 的 初始 化 阶段 ， 也 是 用 户 和 模型 之 间 的 应 用 交互 阶段 。 在 初始 化 期 间 ， 
用 户 指定 数据 源 的 位 置 或 标注 数据 〈 另 一 种 数据 采集 形式 ) ， 在 交互 期 间 ， 用 户 消费 模型 
的 预测 结果 并 提供 用 于 巩固 模型 的 反馈 。 
分 段 阶段 是 转换 数据 的 阶段 ， 使 其 变 为 可 消费 的 形式 并 存储 起 来 ， 从 而 能 够 用 于 处 理 。 本 
阶段 还 负责 数据 的 归 一 化 和 标准 化 ， 以 及 一 些 计 算数 据 存 储 中 的 数据 管理 工作 。 


计算 阶段 是 真正 “ 干 活 ” 的 阶段 ， 主 要 负责 挖掘 数据 以 获取 有 用 的 信息 ， 执 行 聚合 或 报 
告 ， 构 建 用 于 推荐 、 聚 类 或 分 类 的 机 器 学 习 模型 。 


工作 流 管理 阶段 执行 抽象 、 编 排 和 自动 化 任务 ， 使 工作 流 的 各 步 又 可 用 于 生产 环境 。 此 步 
又 应 能 产生 自动 按 需 运行 的 应 用 程序 、 作 业 或 脚本 。 


Hadoop 已 经 演变 成 了 包含 各 种 工具 的 生态 系统 ， 可 以 实现 上 述 流水 线 的 部 分 环节 。 例 如 ， 
Sqoop 和 Kafka 可 用 于 数据 采集 ， 支 持 将 关系 数据 库 导 入 Hadoop 或 分 布 式 消息 队列 ， 以 
进行 按 需 处 理 。 在 Hadoop 中 ， 像 Hive 和 HBase 之 类 的 数据 仓库 提供 了 大 规模 的 数据 管 
理 机 会 ，Spark 的 GraphX、MLlib 或 Mahout 库 提 供 了 分 析 包 ， 供 大 规模 计算 和 验证 使 用 。 
在 本 书 中 ， 我 们 将 探索 Hadoop 生态 系统 的 许多 组 件 ， 并 了 解 它们 如 何 融 入 整个 大 数据 流 
水 线 。 
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1.4 小 结 


在 过 去 十 年 间 ， 关 于 “什么 是 数据 科学 ”的 讨论 发 生 了 巨大 变化 一 一 从 纯 分 析 到 与 可 视 化 
相关 的 方法 ， 再 到 如 今 数据 产品 的 创建 。 数 据 产 品 是 使 用 数据 训练 、 自 适应 且 广泛 适用 的 
经 济 引 擎 ， 从 数据 中 获取 价值 并 产生 新 的 数据 。 数 据 产品 引发 了 一 次 信息 经 济 革 命 ， 改 变 
了 小 企业 、 技 术 创 业 公司 、 大 型 组 织 甚至 政府 机 构 看 待 其 数据 的 方式 。 

本 章 描 述 了 数据 科学 流水 线 原始 教学 模型 的 一 个 改良 版 本 ， 并 提出 了 数据 产品 流水 线 。 数 
据 产品 流水 线 是 迭代 的 ， 包 括 两 个 阶段 : 构建 阶段 和 运行 阶段 (包括 4 个 阶段 : 交互 、 数 
据 、 存 储 和 计算 )。 这 种 架构 可 以 有 条 不 亲 地 执行 大 规模 的 数据 分 析 ， 保 留 了 实验 、 人 与 
数据 产品 间 的 交互 。 而 且 当 围绕 数据 产品 构建 的 应 用 程序 很 大 时 ， 它 还 能 支持 部 分 环节 的 
自动 化 。 希 望 这 个 流水 线 可 以 帮 你 了 解数 据 产品 生命 周期 的 大 体 框架 ， 也 能 成 为 探索 更 多 
创新 项 目的 基石 。 
因为 本 书 是 从 数据 科学 家 的 角度 探讨 分 布 式 计 算 和 Hadoop， 所 以 我 们 认为 ，Hadoop 的 作 
用 是 从 大 量 不 同 来 源 采集 多 种 形式 的 数据 (其 中 包含 大 量 实例 、 事 件 和 类 )， 并 将 其 转换 
为 有 价值 的 事物 一 一 数据 产品 。 


































































































第 2 章 


大 数据 操作 系统 





数据 团队 通常 是 由 5 至 7 名 成 员 组 成 的 小 型 团队 ， 他 们 通过 敏捷 方法 实现 由 假设 驱动 的 工 
作 流 。 虽 然 数 据 科学 家 通常 认为 自己 是 掌握 了 数据 方面 大 量 技能 的 通才 ， 但 是 他 们 往往 只 
精 于 软件 、 统 计 或 领域 专业 知识 其 中 之 一 。 因 此 ， 数 据 团 队 的 成 员 分 为 三 大 类 ， 数据 工程 
师 负 责 数 据 的 传输 和 原理 的 实践 ， 基 工作 通常 涉及 软件 和 计算 资源 ， 数 据 分 析 师 专注 于 探 
索 和 解释 数据 ， 并 创建 用 于 推断 或 预测 的 数据 产品 ， 领 域 专 家 提供 过 程 和 应 用 程序 方面 的 
专业 知识 以 解决 问题 。 


考虑 到 分 布 式 计算 的 技术 本 质 ， 使 用 Hadoop 的 数据 团队 常常 将 数据 科学 的 重 中 之 重 放 在 
数据 工程 方面 。 相 较 于 基于 实例 的 方法 ， 大 数据 集 更 适合 采用 基于 聚合 的 方法 ， 用 于 分 布 
式 机 器 学 习 和 统计 分 析 的 大 型 工具 集 也 已 经 存在 。 因 此 ， 大 多 数 关于 Hadoop 的 资料 针对 
的 是 软件 开发 人 员 ， 他 们 通常 精通 Java 一 一 编写 Hadoop API 所 用 的 软件 语言 。 此 外 ， 培 
训 材 料 也 倾向 于 关注 Hadoop 的 架构 方面 ， 因 为 这 些 方面 展示 了 Hadoop 之 所 以 能 成 功 处 理 
大 型 机 器 学 习 等 任务 的 创新 本 源 。 


本 书 的 重点 是 如 何 使 用 Hadoop 进行 分 析 ， 而 不 是 如 何 操作 Hadoop。 然 而 ， 只 有 对 分 布 
式 计 算 和 存储 的 工作 原理 有 所 了 解 ， 才 能 更 全 面 地 了 解 如 何 使 用 Hadoop 构建 用 于 数据 处 
理 的 算法 和 工作 流 。 本 章 将 展示 Hadoop 作为 大 数据 操作 系统 的 一 面 ， 通 过 两 个 主要 组 
件 分 布 式 文件 系统 HDFS (Hadoop Distributed File System) 以 及 负载 和 资源 管理 器 
YARN (Yet Another Resource Negotiator) 概述 Hadoop 的 原理 。 本 章 还 将 演示 如 何 使 
用 命令 行 与 HDFS 交互 ， 并 执行 一 个 MapReduce 作业 。 读 完 本 章 后 ， 你 应 该 能 够 轻松 地 与 
集群 进行 交互 ， 并 能 执行 本 书 其 余部 分 的 示例 。 




















































































































注 1: Harris, Harlan, Sean Murphy, Marck Vaisman, Analyzing the Analyzers (http://oreil.ly/1PxPrNg)(O’Reilly, 
2013). 


2.1 基本 概念 


为 了 执行 大 规模 计算 ，Hadoop 将 涉及 大 型 数据 集 的 分 析 计 算 分 发 给 许多 机 器 ， 每 台 机 器 
同时 对 各 自 的 数据 块 进行 运算 。 分 布 式 计算 不 是 新 的 概念 ， 但 它 是 一 项 技术 挑战 ， 需 要 开 
发 分 布 式 算法 ， 管 理 集群 中 的 机 器 ， 并 实现 网 络 和 架构 细节 。 具 体 来 说 ， 分 布 式 系统 必须 
满足 以 下 要 求 。 
容错 性 
如 果 一 个 组 件 失败 ， 不 应 导致 整个 系统 出 现 故障 ， 系 统 应 能 降级 到 较 低 性 能 状态 。 如 果 
失败 的 组 件 恢复 了 ， 它 应 该 能 够 重新 加 入 系统 。 








可 恢复 性 

发 生 故障 时 ， 不 应 丢失 数据 。 
一 致 性 

一 个 作业 或 任务 的 失败 不 应 该 影响 最 终 的 结果 。 
可 扩展 性 


负载 的 增加 (更 多 的 数据 或 更 多 的 计算 ) 导致 性 能 下 降 ， 而 不 是 出 现 故障 ， 资 源 的 增加 
应 使 容量 按 比例 增加 。 


Hadoop 通过 以 下 儿 个 抽象 概念 来 满足 上 述 要 求 。( 在 正确 实现 的 情况 下 ， 这 些 概念 定义 了 
集群 如 何 管理 数据 存储 和 分 布 式 计算 ， 此 外 ， 了 解 这 些 概 念 成 为 Hadoop 架构 基本 前 提 的 
原因 有 助 于 理解 其 他 概念 ， 如 数据 流水 线 和 分 析 数 据 流 。) 


。 数据 添加 到 集群 后 即刻 被 分 发 出 去 ， 并 存储 在 多 个 节点 上 。 最 好 用 节点 处 理 本 地 存储 的 
数据 ， 以 将 网 络 流量 最 小 化 。 

。 数据 存储 在 固定 大 小 (通常 为 128MB) 的 块 中 ， 每 个 块 跨 系统 多 次 复制 ， 以 提供 元 余 
和 数据 安全 。 

。 通常 将 计算 作为 一 个 作业 。 作 业 被 分 解 成 任务 ， 每 个 节点 针对 单个 数据 块 执行 任务 。 

。 编写 作业 时 ， 不 需要 考虑 网 络 编程 、 时 间或 底层 的 基础 设施 ， 从 而 允许 开发 人 员 专 注 于 
数据 和 计算 ， 而 不 是 分 布 式 编程 细节 。 

。 系统 应 该 以 透明 的 方式 将 节点 之 间 的 网 络 流量 最 小 化 。 每 个 任务 应 该 是 独立 的 ， 并 且 节 
点 也 不 应 在 处 理 期 间 彼 此 通信 ， 以 确保 没有 会 导致 死 锁 的 进程 间 依 赖 。 

。 作业 通常 通过 任务 元 余 来 容错 ， 这 使 得 单个 节点 或 任务 的 失败 不 会 导致 最 终 的 计算 结果 
不 正确 或 不 完整 。 

。 主 程 序 将 工作 分 配给 worker 节点 ， 这 使 得 许多 worker 节点 可 以 针对 各 自负 责 的 数据 进 
行 并 行 运算 。 

虽然 这 些 基本 概念 的 实现 在 不 同 的 Hadoop 系统 上 略 有 不 同 ， 但 它们 驱动 了 核心 架构 ， 并 

确保 满足 容错 性 、 可 恢复 性 、 一 致 性 和 可 扩展 性 的 要 求 。 这 些 要 求 又 确保 了 Hadoop 是 一 

个 数据 分 析 处 理 符合 预期 的 数据 管理 系统 (传统 上 ， 这 些 分 析 处 理 是 在 关系 数据 库 或 科学 

数据 仓库 中 执行 的 )。 与 数据 仓库 不 同 ，Hadoop 能 够 在 更 经 济 的 现成 商业 硬件 上 运行 。 因 

此 ，Hadoop 主要 用 于 存储 和 计算 大 型 异 构 数据 集 。 快 速 分 析 和 数据 产品 的 原型 设计 有 赖 

于 这 些 存储 在 “数据 湖泊 ”中 (而 不 是 数据 仓库 中 ) 的 数据 集 。 
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2.2 ”Hadoop 架 构 


Hadoop 由 两 个 主要 组 件 组 成 : HDFS 和 YARN， 它 们 实现 了 上 一 节 讨 论 的 分 布 式 存储 和 计 
算 的 基本 概念 。HDFS (有 时 缩写 为 DFS) 是 Hadoop 的 分 布 式 文件 系统 ， 负 责 管理 存储 在 
集群 中 磁盘 上 的 数据 ，YARN 则 是 集群 资源 管理 器 ， 将 计算 资源 (worker 节点 上 的 处 理 能 
力 和 内 存 ) 分 配给 希望 执行 分 布 式 计算 的 应 用 程序 。 架 构 栈 如 图 2-1 所 示 。 值 得 注意 的 是 ， 
原先 的 MapReduce 应 用 程序 和 其 他 新 的 分 布 式 计算 应 用 程序 ， 如 图 形 处 理 引 敬 Apache 
Giraph (http://giraph.apache.org) 和 内 存 计 算 平 台 Apache Spark (http://spark.apache.org)， 
现在 基于 YARN 实现 。 


MapReduce Spark Storm Hive 
( 批 处 理 ) (内 存 计算 ) ( 流 式 计算 ) (SQL) 


YARN 
(负载 和 资源 管理 器 ) 


HDFS 
(Hadoop 分 布 式 文件 系统 ) 






























































廉价 磁盘 和 处 理 器 集群 














2-1: Hadoop 由 HDFS 和 YARN 构成 


HDFS 和 YARN 协同 工作 ， 主 要 通过 确保 数据 对 于 所 需 的 计算 是 本 地 的 ， 最 大 限度 地 减 
少 集群 中 的 网 络 流量 。 数 据 和 任务 的 重复 确保 了 容错 性 、 可 恢复 性 和 一 致 性 。 此 外 ， 集 
群 被 集中 管理 ， 提 供 了 可 扩展 性 ， 还 可 将 底层 的 集群 编程 细节 抽象 化 。HDFS 和 YARN 
共同 构建 了 大 数据 应 用 程序 的 平台 一 一 也 许 不 仅仅 是 一 个 平台 ， 它 们 为 大 数据 提供 了 一 
个 操作 系统 。 


和 任何 优秀 的 操作 系统 一 样 ，HDFS 和 YARN 也 很 灵活 。 除 HDFS 之 外 的 其 他 数据 存储 系 
统 可 以 集成 到 Hadoop 框架 中 ， 例 如 Amazon S3 或 Cassandra。 此 外 ， 数 据 存储 系统 也 可 以 
直接 构建 在 HDFS 之 上 ， 从 而 提供 简单 文件 系统 之 外 的 功能 。 例 如 ，HBase 是 一 个 构建 在 
HDFS 之 上 的 列 式 数据 存储 ， 它 是 利用 分 布 式 存储 的 一 个 先进 的 分 析 应 用 程序 。 在 Hadoop 
的 早期 版 本 中 ， 如 果 应 用 程序 希望 利用 Hadoop 集群 上 的 分 布 式 计算 ， 它 就 必须 将 用 户 级 
实现 转换 为 MapReduce 作业 。 然 而 ，YARN 现在 支持 对 集群 功能 进行 更 丰富 的 抽象 ， 这 
使 得 用 于 机 器 学 习 、 图 形 分 析 、 类 SQL 的 数据 查询 ， 其 至 流 式 数 据 服务 的 新 数据 处 理应 用 
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程序 速度 更 快 ， 且 更 容易 实现 。 因 此 ， 围 绕 着 Hadoop ， 特 别 是 HDFS 和 YARN， 丰 富 的 
工具 和 技术 生态 系统 得 以 构建 起 来 。 














2.2.1 Hadoop 集 群 


现在 来 问 自己 一 个 很 有 用 的 问题 : 什么 是 集群 ? 到 目前 为 止 ， 我 们 一 直 在 说 Hadoop 是 一 
个 以 协调 方式 运行 的 机 器 集群 。 然 而 ，Hadoop 并 不 是 你 必须 购买 或 维护 的 硬件 ， 它 其 实 
是 运行 在 集群 上 的 软件 的 名 称 ， 即 HDFS 和 YARN， 它 们 由 在 一 组 计算 机 上 运行 的 6 种 后 
台 服 务 组 成 。 


现在 来 逐一 介绍 它们 。HDFS 和 YARN 提供 了 一 个 应 用 程序 编程 接口 (Application 
Programming Interface，API) ， 它 使 开发 人 员 不 必 关 注 底层 的 集群 管理 细节 。 集 群 就 是 运 
行 HDFS 和 YARN 的 一 组 计算 机 ， 每 台 计 算 机 被 称 为 一 个 节点 。 集 群 可 以 有 一 个 节点 ， 也 
可 以 有 成 千 上 万 个 节点 ,但 是 所 有 集群 都 是 水 平 扩展 的 ， 这 意味 着 在 添加 更 多 节点 时 ， 集 
群 以 线性 方式 提升 容量 和 性 能 。 
HDFS 和 YARN 由 几 个 守护 进程 实现 。 守 护 进 程 是 在 后 台 运 行 并 且 不 需要 用 户 输入 的 软 
件 。Hadoop 进程 是 服务 ， 这 意味 着 它们 一 直 在 集群 节点 上 运行 ， 接 受 输入 并 通过 网 络 传 
弟 输 出， 这 与 HITP 服务 器 的 工作 原理 类 似 。 每 个 进程 在 自己 的 Java 虚拟 机 (Java Virtual 
Machine，JVM) 中 运行 ， 因 此 每 个 守护 进程 都 有 自己 的 系统 资源 分 配 ， 并 由 操作 系统 独 
立 管 理 。 集 群 中 的 每 个 节点 都 由 其 运行 的 一 个 或 多 个 进程 的 类 型 标识 。 
master 节点 
这 些 节点 为 Hadoop 的 worker 节点 提供 协调 服务 ， 通 常 是 用 户 访问 集群 的 入 口 点 。 没 有 
master 节点 ， 协 调 就 不 复 存 在 ， 也 就 不 可 能 进行 分 布 式 存 储 或 计算 。 
worker 节点 
集群 中 的 大 多 数 计算 机 都 属于 这 类 节点 。worker 节点 运行 的 服务 从 master 节点 接受 
任务 一 一 存储 或 检索 数据 、 运 行 特定 应 用 程序 。worker 节点 通过 并 行 分 析 运 行 分 布 
式 计 算 。 
HDFS 和 YARN 都 有 多 个 master 服务 ， 负 责 协 调运 行 在 各 个 worker 节点 上 的 worker 服 
务 。worker 节点 实现 HDFS 和 YARN 的 worker 服务 。HDES 的 master 服务 和 worker 服务 
如 下 所 示 。 


NameNode (master 服务 ) 
用 于 存储 文件 系统 的 目录 树 、 文 件 元 数据 和 集群 中 每 个 文件 的 位 置 。 如 果 客 户 端 想 访问 
HDFS， 必 须 先 通过 从 NameNode 请 求 信 息 来 查找 相应 的 存储 节点 。 
Secondary NameNode (master 服务 ) 
代表 NameNode 执行 内 务 任 务 并 记录 检查 点 。 虽 然 它 叫 这 个 名 字 ， 但 它 并 不 是 
NameNode 的 备份 。 
DataNode (worker 服务 ) 
用 于 存储 和 管理 本 地 磁盘 上 的 HDFS 块 ， 将 各 个 数据 存储 的 健康 状况 和 状态 报告 给 
NameNode。 
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从 宏观 上 看 ， 当 从 HDFS 访问 数据 时 ， 客 户 端 应 用 程序 必须 先 向 NameNode 发 出 请 求 ， 以 
在 磁盘 上 定位 数据 。 NameNode 将 回复 一 个 存储 数据 的 DataNode 列表 ， 客 户 端 必须 直接 从 
DataNode 请 求 每 个 数据 块 。 注 意 ，NameNode 不 存储 数据 ， 也 不 将 数据 从 DataNode 传递 
到 客户 端 ， 而 是 像 交 警 指挥 交通 一 般 ， 将 客户 端 指向 正确 的 DataNode。 


和 HDFS 类 似 ，YARN 也 有 两 个 master 服务 和 一 个 worker 服务 ， 如 下 所 示 。 


ResourceManager (master 服务 ) 
为 应 用 程序 分 配 和 监视 可 用 的 集群 资源 (如 内 存 和 处 理 器 核心 这 样 的 物理 资源 )， 处 理 
集群 上 作业 的 调度 。 


ApplicationMaster (master 服务 ) 
根据 ResourceManager 的 调度 ， 协 调 在 集群 上 运行 的 特定 应 用 程序 。 


NodeManager (worker 服务 ) 

在 单个 节点 上 运行 和 管理 处 理 任务 ， 报 告 任 务 运行 时 的 健康 状况 和 状态 。 
与 HDFS 的 工作 方式 类 似 ， 如 果 客 户 端 希 望 执行 作业 ， 就 必须 先 向 ResourceManager 请 求 
资源 ，ResourceManager 会 分 配 一 个 应 用 程序 专用 的 ApplicationMaster， 它 在 作业 的 执行 过 
程 中 会 一 直 存 在 。ApplicationMaster 跟踪 作业 的 执行 ，ResourceManager 则 跟踪 节点 的 状 
态 ， 每 个 NodeManager 创建 容器 并 在 其 中 执行 任务 。 请 注意 ，Hadoop 集群 上 也 可 能 运行 
着 其 他 进程 〈 例 如 JobHistory 服务 器 或 ZooKeeper 协调 器 ) ， 但 这 些 服 务 是 Hadoop 集群 中 
运行 的 主要 软件 。 
主 进程 非常 重要 ， 所 以 它们 通常 在 自己 的 节点 上 运行 。 因 此 ， 它 们 不 会 竞争 资源 ， 也 不 会 
带 来 瓶颈 。 但 是 在 较 小 的 集群 中 ， 所 有 的 主 守护 进程 可 能 都 在 一 个 节点 上 运行 。 以 一 个 小 
型 Hadoop 集群 的 部 署 为 例 ， 它 有 六 个 节点 ， 分 别 为 两 个 master 节点 和 四 个 worker 节点 ， 
如 图 2-2 所 示 。 请 注意 ， 在 较 大 的 集群 中 ，NameNode 和 Secondary NameNode 将 驻 留 在 不 
同 的 计算 机 上 ， 从 而 避免 竞争 资源 。 因 为 集群 是 水 平 扩展 的 ， 所 以 集群 的 大 小 应 该 与 预期 
的 计算 或 数据 存储 能 力 呈 正 相 关 。 一 般 来 说 ， 拥 有 20~30 个 worker 节点 和 单个 master 市 
点 的 集群 足以 在 几 十 大 字 节 的 数据 集 上 同时 运行 多 个 作业 。 对 于 部 署 几 百 个 节点 的 集群 ， 
每 个 master 节点 都 拥有 自己 的 计算 机 ， 而 在 拥有 数 千 个 节点 的 集群 中 ， 会 有 多 个 master 市 
点 被 用 于 协调 。 


不 一 定 要 在 集群 上 开发 MapReduce 作业 ， 相反 ， 大 多 数 Hadoop 开发 人 员 通 
常 在 虚拟 机 中 使 用 “ 伪 分 布 式 ”开发 环境 。 开 发 可 以 在 一 小 部 分 数据 样本 上 
进行 ， 而 不 必 动 用 整个 数据 集 。 关 于 如 何 搭 建 伪 分 布 式 开发 环境 ， 请 参见 附 
录 人 A。 
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还 有 一 种 集群 也 很 值得 关注 ， 那 就 是 单 市 点 集群 。 在 “ 伪 分 布 式 模式 ”中 ， 单 个 机 器 将 运 
行 所 有 Hadoop 守护 进程 ， 就 好 像 它 是 集群 的 一 部 分 ， 但 网 络 流量 是 通过 本 地 环 回 网 络 接 
口 流 动 的 。 这 种 模式 虽然 没有 发 挥 出 分 布 式 架构 的 优势 ， 但 却 是 一 种 完美 的 开发 模式 ， 因 
为 不 必 为 管理 几 台 机 器 而 费心 。Hadoop 开发 人 员 通 常 使 用 伪 分 布 式 环境 ， 该 环境 通常 位 
于 虚拟 机 内 部 ， 通 过 SSH 连接 虚拟 机 。Cloudera、Hortonworks 和 其 他 流行 的 Hadoop 发 
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行 版 提供 了 预先 构建 的 虚拟 机 镜像 ， 供 你 下 载 并 立即 使 用 。 如 果 你 想 自己 配置 伪 分 布 式 市 
点 ， 请 参考 附录 A。 











ResourceManager | aa | Cg | 
JobHistory Server Application 
Manager Manager Manager 








Secondary Node Node 
NameNode Manager Manager 




















2-2: 拥有 两 个 master 节点 和 四 个 worker 节点 的 小 型 Hadoop 集群 ， 实 现 了 全 部 六 个 主要 的 
Hadoop 服务 


2.2.2 HDFS 


通过 将 数据 存储 在 由 廉价 、 不 可 靠 的 计算 机 组 成 的 集群 中 ，HDEFS 为 大 数据 提供 元 余 
存储 ， 从 而 扩展 单 台 计算 机 的 可 用 存储 容量 。 然 而 ， 由 于 分 布 式 文件 系统 的 网 络 特性 ， 
HDFS 比 传统 的 文件 系统 更 复杂 。 为 了 在 最 大 程度 上 降低 这 种 复杂 性 ，HDFS 采用 集中 
式 存储 架构 。” 


理论 上 ，HDFS 是 位 于 本 机 文件 系统 (如 ext4 或 xfs) 之 上 的 软件 层 。 而 实际 上 ，Hadoop 
一 般 化 了 存储 层 ， 可 与 本 地 文件 系统 和 其 他 存储 类 型 (如 Amazon S3) 进行 交互 。HDFS 
是 分 布 式 文件 系统 的 旗舰 ， 也 是 大 多 数 编程 场景 所 用 的 主要 文件 系统 。 它 被 设计 用 于 存储 
非常 大 的 文件 ， 使 用 流 访问 数据 ， 因 此 有 一 些 注意 事项 。 
与 占用 相同 容量 的 数 以 亿 计 的 小 文件 相 比 ，HDFS 更 适合 处 理 数 量 适中 但 非常 大 的 文件 
(例如 几 百 万 个 100MB 或 更 大 的 文件 )。 
。 HDFS 采用 WORM 模式 ， 即 写 一 次 ， 读 多 次 (write once, read many)。 它 不 允许 随机 写 
入 或 追加 到 文件 。 
。 HDFS 针对 文件 的 大 型 流 式 读 取 进 行 了 优化 ， 不 采用 随机 读 取 或 随机 选择 。 




















































































































注 2: Ghemawat、Gobioff 和 Leung 于 2003 年 发 表 的 论文 “The Google File System” (http://bit.ly/google- 
filesystem) 率先 提出 这 一 理念 。 
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因此 ， 用 HDFS 来 存储 用 于 计算 的 原始 输入 数据 、 计 算 阶 段 之 间 的 中 间 结 果 ， 以 及 整个 
作业 的 最 终结 果 再 合适 不 过 了 。 但 如 果 应 用 程序 需要 实时 更 新 、 交 互 式 数据 分 析 和 基于 记 
录 的 事务 支持 ， 它 就 不 适合 作为 数据 后 端 使 用 了 。 相 反 ， 通 过 写 入 一 次 并 读 取 多 次 数据 ， 
HDFS 用 户 可 以 创建 大 量 异 构 数据 ， 以 进行 不 同 的 计算 和 分 析 。 这 些 数据 存储 有 时 被 称 为 
“数据 湖泊 ”， 因 为 它们 以 可 恢复 和 容错 的 方式 简单 地 保存 关于 已 知 问题 的 所 有 数据 。 本 书 
稍 后 将 讲解 突破 这 些 限制 的 变通 方法 。 

1. 文件 块 

HDFS 文件 分 为 多 个 块 ， 块 大 小 通常 为 64MB 或 128MB。 尽 管 这 可 在 运行 时 配置 ， 但 是 高 
性 能 系统 通常 将 块 大 小 设 为 236MB 。 块 大 小 是 可 以 在 HDFS 中 读 取 或 写 入 的 最 小 数据 量 ， 
类 似 于 单个 磁盘 文件 系统 上 的 块 大 小 。 但 是 与 单个 磁盘 上 的 块 不 同 ， 小 于 块 大 小 的 文件 不 
占用 实际 文件 系统 上 一 个 完整 块 的 空间 。 这 意味 着 为 了 实现 最 佳 性 能 ，Hadoop 更 喜欢 分 
解 成 小 块 的 大 文件 ， 能 将 许多 较 小 的 文件 合并 成 一 个 大 文件 就 很 好 。 但 是 如 果 HDFS 上 存 
储 了 许多 小 文件 ， 就 不 是 每 个 文件 都 能 让 总 可 用 磁盘 空间 减少 128MB 了 。 

块 能 将 运行 中 的 非常 大 的 文件 拆 分 并 将 其 分 发 到 许多 计算 机 上 。 来 自 同一 文件 的 不 同 块 将 
被 存储 在 不 同 的 计算 机 上 ， 以 提供 更 高 效 的 分 布 式 处 理 。 事 实 上 ， 在 任务 和 数据 块 之 间 存 
在 一 对 一 的 关系 。 


此 外 ， 块 将 跨 DataNode 复制 。 默 认 情 况 下 ， 块 将 复制 三 份 ， 但 也 可 在 运行 时 配置 。 因 此 ， 
每 个 块 都 将 分 布 在 三 台 计 算 机 和 三 块 磁盘 上 。 即 使 两 个 节点 都 发 生 了 故障 ， 数 据 也 不 会 丢 
失 。 请 注意 ， 这 意味 着 集群 中 的 潜在 数据 存储 容量 仅 为 可 用 磁盘 空间 的 三 分 之 一 ， 但 因为 
磁盘 通常 非常 便宜 ， 所 以 这 在 大 多 数 数据 应 用 程序 中 都 不 成 问题 。 

2. 数据 管理 

主 NameNode 记录 组 成 文件 的 块 和 这 些 块 所 在 的 位 置 。NameNode 与 DataNode (集群 
中 实际 保存 块 的 进程 ) 进行 通信 。 与 每 个 文件 相关 联 的 元 数据 被 存储 在 NameNode 的 
master 市 点 的 内 存 中 ， 以 便 进行 快速 查找 。 如 果 NameNode 停止 或 发 生 故 障 ， 整 个 集群 
都 将 无 法 访问 ! 

Secondary NameNode 不 是 NameNode 的 备份 ， 而 是 代表 NameNode 执行 内 务 任务 ， 包 括 
(特别 是 ) 定期 将 当前 数据 空间 的 快照 与 编辑 日 志 合 并 ， 以 确保 编辑 日 志 不 会 过 大 。 编 辑 
日 志 用 于 确保 数据 的 一 致 性 ， 防 止 数 据 丢 失 。 如 果 NameNode 发 生 故 障 ， 就 可 以 用 合并 后 
的 记录 重建 DataNode 的 状态 。 
当 客 户 端 应 用 程序 想 要 读 取 文 件 时 ， 它 首先 从 NameNode 请 求 元 数据 ， 以 定位 组 成 文件 的 
块 以 及 存储 块 的 DataNode 的 位 置 。 然 后 ， 应 用 程序 直接 与 DataNode 通信 以 读 取 数据 。 因 
此 ，NameNode 仅仅 扮演 着 日 志 或 查找 表 的 角色 ， 而 不 是 同时 读 取 的 瓶颈 。 






































































































































2.2.3 YARN 


虽然 原始 版 本 的 Hadoop (Hadoop 1) 普及 了 MapReduce， 并 使 大 众 接触 到 了 大 规模 的 分 
布 式 处 理 ， 但 它 只 在 HDFS 上 提供 MapReduce。 这 是 因为 在 Hadoop 1 中 ，MapReduce 作 
业 / 工 作 负 载 管理 功能 与 集群 /资源 管理 功能 高 度 耦合 。 因 此 ， 其 他 处 理 模 型 或 应 用 程序 
无 法 将 集群 基础 设施 用 于 其 他 分 布 式 工作 负载 。 
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虽然 MapReduce 在 批量 处 理 大 规模 工作 负载 时 非常 高 效 ， 但 是 它 是 IO 密集 型 的 ， 并 且 由 
于 HDFS 和 MapReduce 的 面 癌 批 处 理性 质 ， 它 在 支持 交互 式 分析 、 图 形 处 理 、 机 器 学 习 
和 其 他 内 存 密集 型 算法 时 面临 明显 的 限制 。 虽 然 已 经 为 这 些 特定 的 场景 开发 了 其 他 分 布 式 
处 理 引 擎 ， 但 是 Hadoop 1 专注 于 MapReduce 的 本 质 决定 了 它 不 可 能 改变 同一 集群 的 用 途 ， 
转 而 去 支持 这 些 分 布 式 工作 负载 。 

Hadoop 2 通过 引入 YARN 突破 了 这 些 限 制 。YARN 将 工作 负载 管理 与 资源 管理 分 离 ， 以 
便 多 个 应 用 程序 可 以 共享 一 个 集中 的 公共 资源 管理 服务 。 通 过 在 YARN 中 提供 通用 的 作业 
和 资源 管理 能 力 ，Hadoop 不 再 是 一 个 仅仅 专注 于 MapReduce 的 框架 ， 而 成 为 了 一 个 完整 、 
多 应 用 程序 的 大 数据 操作 系统 。 


2.3 ”使 用 分 布 式 文件 系统 


请 记 住 ，HDFS 实际 上 是 一 个 分 布 式 远程 文件 系统 。 它 与 POSIX 文件 系统 的 相似 性 很 容易 
误导 我 们 ， 特 别 是 文件 系统 查找 的 所 有 请 求 都 发 送 到 NameNode。NameNode 能 够 快速 响 
应 查找 类 型 的 请 求 。 一 旦 你 开始 访问 文件 ， 速 度 会 很 快慢 下 来 ， 因 为 组 成 请 求 文件 的 各 个 
块 都 必须 通过 网 络 传输 到 客户 端 。 还 要 记 住 ， 因 为 块 在 HDFS 上 有 多 个 副本 ， 所 以 HDFS 
中 的 可 用 磁盘 空间 实际 上 比 硬件 提供 的 可 用 磁盘 空间 少 。 


以 下 示例 提供 的 命令 和 环境 变量 可 能 与 你 使 用 的 Hadoop 版 本 或 系统 不 同 。 
在 大 多 数 情 况 下 ， 这 些 差异 应 该 很 容易 理解 。 本 书 假设 你 使 用 和 附录 A 描述 
的 擅 分 布 式 节点 一 样 的 设置 。 








































































































在 大 多 数 情况 下 ， 与 HDFS 的 交互 是 通过 命令 行 接口 进行 的 ， 使 用 过 Unix 或 Linux 上 的 
POSIX 接口 的 用 户 都 很 熟悉 这 种 方式 。 此 外 ，HDFS 还 有 一 个 HTTP 接口 和 一 个 用 Java 编 
写 的 可 编程 接口 。 但 是 因为 开发 人 员 最 熟悉 命令 行 接 口 ， 所 以 本 书 将 从 命令 行 接口 入 手 。 
在 本 节 中 ， 我 们 将 通过 命令 行 完成 与 分 布 式 文件 系统 的 基本 交互 。 假 设 执行 这 些 命令 的 是 
可 以 连接 到 远程 Hadoop 集群 的 客户 端 ， 或 本 地 主机 上 运行 着 伪 分 布 式 集群 的 客户 端 。 此 
外 ， 本 书 也 假设 hadoop 命令 和 $HADOOP_HOME/bin 中 的 其 他 工具 位 于 系统 路 径 上 ， 并 
且 可 以 被 操作 系统 找到 。 


2.3.1 基本 的 文件 系统 操作 


用 户 可 以 进行 所 有 常规 的 文件 系统 操作 ， 例 如 创建 目录 ， 移 动 、 删 除 和 复制 文件 ， 列 出 目 
录 内 容 ， 修 改 集群 上 文件 的 权限 。 要 查看 fs 命令 下 可 用 的 命令 ， 键 入 : 


hostname $ hadoop fs -help 
Usage: hadoop fs [generic options] 








如 你 所 见 ， 许 多 与 文件 系统 交互 的 常见 命令 都 可 用 ， 通 过 hadoop fs 命令 的 参数 指 
定 一 一 就 像 Java 风格 的 标志 参数 ， 即 在 命令 后 加 短 横 线 〈- )。 这 些 命令 的 辅助 标志 或 选 
项 另外 使 用 由 空格 分 隔 的 Java 样式 参数 指定 ， 跟 在 初始 命令 之 后 。 请 注意 ， 指 定 此 类 选 














16 | 第 2 章 


项 的 顺序 很 重要 。 


F 始 动手 吧 。 先 使 用 put 或 copyFromLocal 命令 从 本 地 文件 系统 复制 一 些 数据 到 远程 〈 分 
布 式 ) 文件 系统 。 这 两 个 命令 是 相同 的 ， 都 能 将 文件 写 入 分 布 式 文件 系统 ， 而 不 删除 本 地 
副本 。moveFromLocal 命令 的 功能 类 似 ， 但 会 在 文件 成 功 传输 到 分 布 式 文件 系统 后 ， 将 本 
地 副本 删除 。 


在 存放 本 书 代 码 和 资源 的 GitHub 仓库 (https://github.com/bbengfort/hadoop-fundamentals) 中 ， 
有 一 个 /data 目录 ， 其 中 有 一 个 名 为 shakespeare.txt 的 文件 ， 包 含 了 莎士比亚 作品 全 集 。 将 
此 文件 下 载 到 你 的 本 地 工作 目录 。 下 载 后 ， 将 文件 复制 到 分 布 式 文件 系统 ， 如 下 所 示 : 


hostname $ hadoop fs -copyFromLocal shakespeare.txt shakespeare.txt 





| 
































本 示例 调用 Hadoop 的 shell 命令 copyFromLocaL， 并 带 有 <src> 和 <dst> 两 个 参数 ， 它 们 
都 被 指定 为 shakespeare.txt 文件 的 相对 路 径 。 整 个 过 程 为 : copyFromLocal 命令 在 当前 工 
作 目 录 中 搜索 shakespeare.txt 文件 ， 从 NameNode 请 求 有 关 该 路 径 的 信息 ， 然 后 直接 与 
DataNode 通信 以 传送 文件 ， 将 其 复制 到 HDFS 上 的 /user/analyst/shakespeare.txt 路 径 。 因 为 
莎士比亚 作品 全 集 小 于 64MB， 所 以 它 不 会 被 分 成 块 。 但 是 请 注意 ， 在 本 地 计算 机 以 及 远 
程 HDFS 系统 上 ， 都 必须 考虑 相对 路 径 和 绝对 路 径 。 以 上 命令 的 全 写 形式 如 下 : 


hostname $ hadoop fs -put /home/analyst/shakespeare.txt \ 
hdfs://LocaLhost/user/anaLyst/shakespeare .txt 


你 可 能 注意 到 了 ，HDFS 上 的 主 目录 和 POSIX 系统 上 的 主 目录 很 像 。/user/analyst/ 目录 就 
是 主 目录 一 一 analyst 用 户 的 主 目录 。 远 程 文件 系统 的 相对 路 径 将 用 户 的 HDFS 主 目录 视 为 
当前 工作 目录 。 事 实 上 ，HDFS 文件 和 目录 的 权限 模型 和 POSIX 的 非常 像 。 为 了 更 好 地 管 
理 HDFS 文件 系统 ， 像 在 本 地 文件 系统 上 一 样 创建 目录 的 分 层 树 : 


hostname $ hadoop fs -mkdir corpora 
要 列 出 远程 主 目录 的 内 容 ， 可 以 使 用 1s 命令 : 


hostname $ hadoop fs -ls . 
drwxr-xr-x - analyst analyst 0 2015-05-04 17:58 corpora 
-rw-r--r-- 3 analyst analyst 8877968 2015-05-04 17:52 shakespeare.txt 


HDEFS 文件 列举 命令 与 具备 一 些 HDFS 特定 特征 的 Unix ls -1 命令 很 像 。 但 当 此 命令 不 带 
任何 参数 时 ， 则 会 提供 用 户 的 HDFS 主 目录 的 列表 。 第 1 列 显示 文件 的 权限 模式 ， 第 2 列 
是 文件 的 副本 数 (默认 情况 下 ， 副 本 数 为 3)。 请 注意 ， 目 录 不 会 被 复制 ， 因 此 本 例 中 的 此 
列 是 短 横 线 (-)。 其 后 依次 是 用 户 、 组 、 以 字 节 为 单位 的 文件 大 小 (目录 为 零 )、 最 后 一 
次 修改 的 日 期 和 时 间 ， 以 及 文件 名 。 

其 他 基本 的 文件 操作 (如 mv、cp 和 rm) 在 远程 文件 系统 上 的 工作 方式 和 预想 的 一 样 。 但 
是 ， 删 除 目 录 时 不 使 用 rmdir 命令 ， 而 是 使 用 rm -R 递归 删除 目录 及 其 包含 的 所 有 文件 。 
将 文件 从 分 布 式 文件 系统 读 取 和 移动 到 本 地 文件 系统 时 应 小 心 处 理 ， 因 为 分 布 式 文件 系统 
维护 的 文件 非常 大 。 有 些 情 况 下 ， 用 户 需 要 详细 检查 文件 ， 特 别 是 MapReduce 作业 的 结果 
生成 的 输出 文件 。 这 些 文件 通常 不 被 读 取 到 标准 输出 流 ， 而 是 使 用 管道 传输 到 其 他 程序 ， 
如 Less 或 more。 
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如 需 读 取 文 件 的 内 容 ， 可 使 用 cat 命令 ， 然 后 将 输出 通过 管道 传递 给 less 以 查看 远程 文件 
的 内 容 : 


hostname $ hadoop fs -cat shakespeare.txt | Less 





当 使 用 Less 时， 可 以 通过 方向 键 导航 文件 ， 键 入 q 退出 并 退回 到 终端 。 





还 可 以 使 用 tail 命令 仅 检查 文件 的 最 后 1000 字 市 : 
hostname $ hadoop fs -tail shakespeare.txt | less 


没有 类 似 hadoop fs -head 的 命令 可 以 用 来 检查 文件 的 前 1000 字 节 。 不 过 ， 可 以 使 用 
hadoop fs -cat 并 通过 管道 将 文件 内 容 传输 到 本 地 shell 的 head 命令 。 这 种 做 法 很 高 效 ， 
因为 head 命令 在 读 取 整 个 文件 之 前 就 终止 了 远程 流 。 但 是 以 这 种 方式 使 用 shell 的 tail 
会 降低 效率 ， 因 为 在 计算 输出 之 前 ， 所 有 数据 都 必须 从 远程 文件 系统 流 式 传输 到 本 地 文 
件 系统 。 相 反 ，hadoop fs -tail 命令 在 远程 文件 中 寻 址 到 正确 位 置 ， 仅 通过 网 络 返 回 所 
若 想 将 整个 文件 从 分 布 式 文件 系统 传输 到 本 地 文件 系统 ， 可 以 使 用 get 或 copyToLocaL， 这 
两 个 命令 是 相同 的 。 与 之 类 似 ， 也 可 以 使 用 moveToLocal 命令 ， 但 它 会 将 该 文件 从 分 布 式 文 
件 系统 中 删除 。get merge 命令 复制 符合 给 定 模式 或 指定 目录 下 的 所 有 文件 ， 并 将 其 合并 成 
本 机 的 单个 文件 。 如 果 远 程 系统 上 的 文件 较 大 ， 可 以 在 管道 传输 的 时 候 使 用 压缩 工具 : 


hostname $ hadoop fs -get shakespeare.txt ./shakespeare.from-remote .txt 























比较 后 可 以 发 现 ， 原 始 的 shakespeare.txt 文件 与 shakespeare.from-remote.txt 文件 相同 。 希 
望 这 些 示 例 充 分 展现 了 hadoop fs 命令 是 一 个 功能 齐全 的 HDFS 命令 行 接口 ， 而 且 经 常用 
于 开发 分 析 作 业 。 表 2-1 展示 了 hadoop fs 提供 的 其 他 命令 ， 它 们 也 都 很 有 用 。 

表 2-1: 其 他 有 用 的 命令 

命令 输出 

hadoop fs -help <cmd> ”提供 特定 于 <cmd> 的 信息 和 标志 

hadoop fs -test <path> 回答 各 种 关于 <path> 的 问题 (例如 它 是 否 存在 、 是 否 是 目录 、 是 否 是 文件 ， 等 等 ) 
hadoop fs -count <path> 统计 符合 指定 文件 模式 的 路 径 所 包含 的 目录 数 、 文 件数 和 字 节 数 

hadoop fs -du -h <path> 显示 符合 指定 文件 模式 的 文件 使 用 的 空间 字 节 数 

hadoop fs -stat <path> 打印 <path> 路 径 的 文件 / 目录 的 统计 数据 


hadoop fs -text <path> ”获取 一 个 源 文件 并 以 文本 格式 输出 文件 内 容 ， 目 前 支持 Zip、TextRecord InputStream 
和 Avro 文件 


2.3.2 ”HDFS 文 件 权 限 


如 前 所 述 ，HDFS 的 文件 权限 与 POSIX 类 似 。 权 限 分 三 种 类 型 : 读 (r)、 写 (w) 和 执行 
(x)。 这 些 权 限定 义 了 所 有 者 、 组 和 任何 其 他 系统 用 户 的 访问 级 别 。 对 于 目录 来 说 ， 执 行 
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权限 允许 访问 目录 的 内 容 ， 但 是 HDFS 上 文件 的 执行 权限 被 名 略 了 。 在 HDFS 中 ， 读 写 权 
限 指定 谁 可 以 访问 数据 ， 以 及 谁 可 以 追加 文件 内 容 。 

目录 列举 命令 ls 能 显示 权限 信息 。 每 个 模式 有 10 个 槽 位 。 第 1 个 槽 位 是 4， 表示 “是 
目录 ， 否 则 是 文件 (-)”。 接 下 来 的 槽 位 每 3 个 为 一 组 ， 分 别 表示 所 有 者 、 组 和 其 他 用 户 
的 rwx 权限 。 有 几 个 HDFS 的 shell 命令 能 管理 文件 和 目录 的 权限 ， 即 我 们 熟悉 的 chmod、 
chgrp 和 chown 命令 : 


























hostname $ hadoop fs -chmod 664 shakespeare.txt 


在 上 例 中 ，chmod 命令 将 shakespeare.txt 的 权限 更 改 为 -rw-rw-r--。664 是 为 权限 三 元 组 设 
置 的 标志 的 八进制 表示 。6 的 二 进 制 数 为 110， 这 意味 着 设置 了 读 和 写 的 标志 ， 但 没有 设 
置 执行 标志 ， 完 全 人 允许 是 7， 即 二 进 制 数 111， 只 读 是 4， 即 二 进 制 数 100。chgrp 和 chown 
命令 分 别 更 改 分 布 式 文件 系统 上 文件 的 组 和 所 有 者 。 


设置 HDFS 文件 权限 时 需要 注意 ， 客 户 端的 身份 是 由 跨 HDFS 运行 的 进程 的 用 户 名 和 组 确 
定 的 ， 这 意味 着 远程 客户 端 可 以 在 系统 上 创建 任意 用 户 。 因 此 ， 这 些 权限 只 用 于 防止 数据 
意外 丢失 ， 以 及 在 已 知 用 户 之 间 共 享 文件 系统 资源 ， 而 不 作为 安全 机 制 使 用 。 


2.3.3 ”其 他 HDFS 接 口 


软件 开发 人 员 可 以 通过 Java API 访问 HDFS 的 编程 接口 ， 并 且 所 有 将 数据 采集 到 Hadoop 
集群 的 过 程 都 应 考虑 使 用 该 API。 还 有 一 些 可 以 将 HDFS 与 其 他 文件 系统 或 网 络 协议 (如 
FTP 或 Amazon S3) 集成 的 工具 。 第 6 章 将 更 加 关注 数据 管理 问题 ， 以 及 如 何 从 各 种 源 获 
取 数 据 并 将 其 存储 到 HDFS 。 


HDFS 也 有 HTTP 接口 ， 可 用 于 集群 文件 系统 的 常规 管理 以 及 使 用 Python 访问 HDFS。 
HDFS 的 HTTP 接口 主要 有 两 种 : 一 是 通过 处 理 HTTP 请 求 的 HDFS 守护 进程 直接 访问 ， 
二 是 由 代理 服务 器 暴露 HTTP 接口 ， 然 后 代表 客户 端 使 用 Java API 直接 访问 HDFS。 代 理 
包括 HttpFS、Hoop 和 WebHDFS， 它 们 都 支持 RESTful 网 络 访问 Hadoop 集群 ， 这 很 容易 
用 Python 实现 。 


通过 在 端口 50070 上 运行 的 HTTP 服务 器 ，NameNode 也 提供 对 HDFS 的 直接 只 读 HTTP 
访问 。 如 果 以 伪 分 布 式 模 式 运行 ， 只 需 打 开 训 览 器 并 访问 http://127.0.0.1:50070， 否 则 ， 就 
使 用 集群 上 NameNode 的 主机 名 。NameNode Web UI 提供 了 集群 状态 的 总 览 情 况 ， 包 括 可 
用 和 已 用 的 存储 容量 、 活 动 和 死亡 的 DataNode 数量 ， 以 及 副本 数 不 足 的 块 的 警告 信息 。 


通过 使 用 Utilities 下 拉 选 项 卡 中 的 搜索 和 导航 工具 ，NameNode 还 允许 用 户 浏 览 文件 系 
统 。 文 件 元 信息 的 列举 方式 类 似 于 命令 行 接口 ， 特 定 文件 还 允许 下 载 。 通 过 访问 DataNode 
主机 的 50075 端口 ， 可 以 直接 浏览 DataNode 上 的 信息 ， 所 有 活动 的 DataNode 都 会 在 
NameNode 的 HTTP 站 点 上 列 出 。 


默认 情况 下 ，HTTP 的 直接 访问 接口 是 只 读 的 。 为 了 提供 对 HDFS 集群 的 写 访 问 ， 必 须 使 
用 WebHDFS 等 代理 。WebHDFS 通过 使 用 Kerberos 进行 身份 验证 ， 从 而 保护 集群 。 如 何 
访问 Hadoop 上 的 安全 资源 主要 取决 于 集群 的 特定 配置 ， 以 及 是 否 使 用 了 任何 第 三 方 管理 
工具 。Hadoop 用 于 运行 在 完全 托管 且 不 暴露 于 外 部 世界 的 内 部 集群 上 ， 因 此 Hadoop 的 安 
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全 性 不 像 其 平台 本 身 那么 成 熟 





这 也 是 Hadoop 继续 发 展 需 要 考虑 的 主要 问题 之 一 。 


2.4 ”使 用 分 布 式 计算 


到 目前 为 止 ， 你 应 该 已 经 能 通过 命令 行 轻 松 与 集群 (甚至 是 伪 分 布 式 集群 ) 交互 了 。 大 多 
数 数据 科学 家 和 软件 开发 人 员 应 该 对 上 一 节 展 示 的 文件 系统 命令 很 熟悉 。 除 了 在 大 型 数据 
集 的 管理 和 集群 中 的 网 络 通信 方面 有 一 些 差异 之 外 ，HDFS 可 以 被 很 轻松 地 集成 到 当前 的 
操作 工作 流 中 。 本 书 接 下 来 的 内 容 将 主要 关注 驻 留 在 HDFS 上 的 数据 的 管理 和 计算 。 为 了 
实现 这 一 点 ， 我 们 需要 对 分 布 式 计算 及 其 要 求 有 基本 了 解 。 


虽然 YARN 已 经 使 Hadoop 成 为 一 个 通用 的 分 布 式 计算 平台 ， 但 MapReduce (通常 缩写 
为 MR) 是 Hadoop 的 第 一 个 计算 框架 。YARN 让 非 MapReduce 框架 (如 Spark、Tez 和 
Storm， 仅 举 几 例 ) 可 以 与 原先 的 MapReduce 应 用 程序 一 起 在 Hadoop 集群 上 运行 。 但 是 ， 
对 于 大 多 数 Hadoop 用 户 来 说 ，MapReduce 仍然 是 许多 应 用 程序 和 分 析 的 主要 框架 。 此 外 ， 
对 MapReduce 的 工作 原理 有 所 了 解 ， 能 帮助 我 们 更 深刻 地 理解 分 布 式 分 析 ， 还 可 以 讨论 其 
他 平台 是 如 何 工 作 的 ， 因 为 MapReduce 的 理论 基础 与 其 他 框架 是 相同 的 。 


本 节 将 探究 MapReduce 编程 范式 的 基本 原理 ， 并 讨论 为 何 这 些 国 数 式 编程 结构 会 成 为 
分 布 式 系统 的 理想 选择 。 我 们 将 通过 两 个 简单 的 分 析 示 例 (单词 计数 和 共同 好 友 ) 演 
示 MapReduce 如 何 工作 ， 这 两 个 示例 通常 用 于 演示 分 布 式 环境 中 的 计算 。 最 后 ， 本 市 
将 描述 如 何在 Hadoop 集群 上 实现 MapReduce 应 用 程序 ， 同 时 演示 如 何 提 交 和 管理 示例 
MapReduce 作业 ， 并 通过 Hadoop 命令 行 接口 获取 输出 。 


2.4.1 MapReduce: 函数 式 编程 模型 

当 人 们 提 到 MapReduce 时 ， 通常 指 的 是 分 布 式 编程 模型 。 "MapReduce 是 一 个 简单 但 功能 
强大 的 计算 框架 ， 专门 用 于 在 集中 管理 的 机 器 集群 上 进行 容错 的 分 布 式 计算 。 它 采用 了 先 
天 可 并 行 的 “函数 式 ” 编 程 风 格 来 实现 ， 允 许多 个 独立 任务 在 本 地 数据 块 上 执行 函数 ， 并 
在 处 理 后 聚合 结果 。 

函数 式 编程 是 一 种 编程 风格 ， 它 确保 每 一 个 计算 单元 以 无 状态 的 方式 被 评估 。 这 意味 着 函 
数 仅 依赖 于 输入 ， 并 且 是 封闭 且 不 共享 状态 的 。 通 过 将 一 个 函数 的 输出 作为 另 一 个 完全 独 
立 的 函数 的 输入 ， 国 数 之 间 实 现 数据 传输 。 这 些 特征 使 得 函数 式 编 程 非常 适合 分 布 式 的 大 
数据 计算 系统 ， 因 为 它 人 允许 我 们 将 计算 移动 到 任何 有 数据 输入 的 节点 ， 并 保证 得 到 的 结果 
相同 。 因 为 函数 是 无 状态 的 ， 且 仅仅 依赖 于 它们 的 输入 ， 所 以 多 台 机 器 上 的 多 个 国 数 可 以 
独立 处 理 一 小 部 分 数据 。 通 过 将 一 些 函 数 的 输出 策略 性 地 链接 到 其 他 函数 的 输入 ， 可 以 实 
现 整个 数据 集 的 最 终 计算 。 

负责 分 发 任务 和 聚合 结果 的 两 类 函数 分 别 被 称 为 map 和 reduce。 这 些 函 数 运算 的 输入 和 
输出 数据 不 是 简单 的 列表 或 值 的 集合 ，MapReduce 甚 实 是 利用 键 值 对 来 协调 计算 。 因 此 ， 
Python 中 map 和 reduce 函数 的 伪 代 码 如 下 所 示 : 



















































































































































































注 3: 分 布 式 编程 模型 由 Google 设计 ，Jeffrey Dean 和 Sanjay Ghemawat 后 来 在 论文 “MapReduce: Simplified 
Data Processing on Large Clusters” (http://bit.ly/google-mapreduce-paper) 中 介绍 了 它 。 
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def map(key, value): 
# 执行 处 理 


return (intermed_key, intermed_value) 


def reduce(intermed_key, values): 

# 执行 处 理 

return (key, output) 
map 国 数 以 一 系列 键 值 对 作为 输入 ， 然 后 在 每 个 键 值 对 上 进行 单独 运算 。 以 上 伪 代 码 按照 
它 在 MapReduce 的 Java API 中 的 表示 表达 了 这 一 概念 : 一 个 接受 两 个 参数 〈 一 个 键 和 一 
个 值 ) 的 函数 。 在 对 输入 数据 执行 了 一 些 分 析 或 变换 之 后 ，map 函数 输出 零 个 或 多 个 键 值 
对 ， 在 以 上 伪 代 码 中 表示 为 单个 元 组 。 整 个 过 程 将 map 函数 应 用 于 输入 列表 以 创建 新 的 输 
出 列表 ， 如 图 2-3 所 示 。 











输入 列表 

















图 2-3: map 函数 以 一 系列 键 值 对 作为 输入 ， 然 后 在 每 个 键 值 对 上 进行 单独 运算 ， 输 出 零 个 或 多 个 键 
值 对 


通常 来 讲 ，map 操作 将 进行 核心 分 析 或 处 理 ， 因 为 这 个 函数 能 查看 数据 集中 的 每 个 元 素 。 想 
想 如 何在 map 中 实现 过 着 器: 测试 每 个 键 值 对 ， 确 定 它 是 否 属于 最 终 数据 集 ， 如 果 是 则 发 出 ， 
否则 就 忽略 。 在 map 阶段 之 后 ， 所 有 发 出 的 键 值 对 将 按照 键 来 分 组 ， 然 后 根据 键 被 用 于 各 个 
reduce 函数 的 输入 。 如 图 2-4 所 示 ，reduce 函数 被 应 用 于 一 个 输入 列表 以 输出 单个 聚合 值 。 























reduce 国 数 
输出 值 
图 2-4: reduce 函数 以 一 个 键 和 一 个 值 列 表 作为 输入 ， 通 常 通过 聚合 操作 在 整个 值 列表 上 进行 运算 ， 
输出 零 个 或 多 个 键 值 对 
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如 伪 代 码 (与 MapReduce 的 Java API 有 些 类 似 ) 所 示 ，reduce 国 数 是 一 个 有 两 个 参 
数 的 函数 : 一 个 键 (在 伪 代 码 中 是 intermed 0 以 及 与 之 相关 联 的 从 代 器 或 值 列 表 
(values)。reducer 对 值 列表 执行 最 终 处 理 ， 通 常 是 组 合 或 聚合 ， 然 后 输出 零 个 或 多 个 键 值 
对 。reducer 旨 在 聚合 从 map 区 a 以 便 将 大 量 数据 转换 为 更 小 、 更 易于 管 
理 的 概要 数据 。 但 它 的 用 处 可 不 止 如 此 。 


2.4.2 MapReduce: 集群 上 的 实现 


因为 mapper 对 任意 列表 的 每 个 元 素 应 用 相同 的 函数 ， 所 以 非常 适合 被 分 发 到 集群 的 节 
上 。 每 个 节点 获得 一 个 mapper 操作 的 副本 ， ee eta 
据 节点 的 数据 块 中 的 键 值 对 上 。 独 立 处 理 数 据 的 mapper 的 数量 不 定 ， 只 受 集群 上 可 用 的 
处 理 器 的 数量 限制 。 因 为 它们 是 无 状态 的 ， 所 以 进程 之 间 不 需要 (或 不 可 能 ) 进行 网 络 通 
信 。 又 因为 mapper 具有 确定 性 ， 它 们 的 输出 不 依赖 于 输入 值 以 外 的 内 容 ， 所 以 可 以 在 另 
一 个 布点 上 重 试 失败 的 mapper。 


reducer 需要 根据 键 获取 mapper 的 输出 作为 输入 ， 因 此 reducer 的 计算 也 可 以 被 分 发 出 去 。 
如 此 一 来 ，reduce 运算 的 数量 最 多 可 能 与 mapper 输出 中 的 可 用 键 一 样 多 。 可 以 预见 ， 每 个 
reducer 都 应 该 能 看 到 某 个 独一无二 的 键 的 所 有 值 。 为 了 满足 该 要 求 ， 需 要 shuffle 和 sort 
操作 来 协调 map 和 reduce 阶段 ， 使 reducer 的 输入 按键 分 组 并 排序 。shuffle 和 sort 将 map 
阶段 的 键 空间 分 区 ， 以 便 将 特定 键 空间 分 配给 特定 reducer。 总 体 来 说 ，MapReduce 的 阶段 
如 图 2-5 所 示 。 



















































































mep | reduce | 


| 刍 值 对 输出 














2-5: 总 体 来 说 ，MapReduce 是 一 个 分 阶段 框架 ， 其 中 的 map 阶段 和 reduce 阶段 通过 中 间 的 
shuffle 和 sort 协调 


2-5 中 涉及 的 阶段 如 下 所 示 。 
阶段 1 
HDFS 的 本 地 数据 以 键 值 对 的 形式 被 加 载 到 一 个 映射 过 程 。 
阶段 2 
mapper 输出 零 个 或 多 个 键 值 对 ， 将 计算 所 得 的 值 映射 到 一 个 特定 的 键 上 。 
阶段 3 


基于 键 对 这 些 键 值 对 进行 sort 和 shuffle 操作 ， 然 后 将 它们 传递 给 reducer， 使 reducer 获 
得 键 的 所 有 值 。 


阶段 4 
reducer 输出 零 个 或 多 个 最 终 的 键 值 对 ， 即 输出 〈 归 约 map 的 结果 )。 









































在 大 多 数 情况 下 ， 数 据 工程 师 只 需要 关注 MapReduce 的 这 一 宽泛 描述 便 可 以 实现 分 析 应 用 
程序 。 但 在 集群 上 执行 MapReduce 时 ， 还 需要 其 他 详细 信息 。 例 如 ， 键 值 对 是 如 何 定义 
的 ?对 键 空间 进行 正确 分 区 需要 什么 ”你 也 可 能 需要 进行 改进 和 优化 ， 如 加 入 combiner 和 
其 他 中 间 阶 段 ， 从 而 使 简单 的 作业 仅 通 过 较 少 的 计算 资源 就 能 完成 。 在 拥有 几 个 节点 的 集 
群 上 ，MapReduce 流水 线 的 数据 流 细 (尽管 这 超出 了 本 书 的 范畴 ) 如 图 2-6 所 示 。 











本 地 预 加 载 
输入 数据 


map 过 程 map 过 程 map 过 程 


mapper 产 生 的 
中 间 数 据 


shuffle 过 程 
交换 的 数据 


esse | | | | | 1 


reduce 过 程 reduce 过 程 reduce 过 程 





存储 在 本 地 
的 输出 




















图 2-6: 在 拥有 几 个 节点 的 集群 上 执行 的 MapReduce 作业 的 数据 流 


在 集群 执行 上 下 文中 ，map 任务 被 分 配给 集群 中 的 一 个 或 多 个 节点 ， 这 些 节 点 包含 指定 
为 map 操作 输入 的 本 地 数据 块 。 块 存储 在 HDFS 中 ， 并 由 InputFormat 类 拆 分 为 更 小 的 
块 ， 该 类 定义 了 如 何 将 数据 呈现 给 map。 例 如 ， 给 定 文本 数据 ， 键 可 以 是 文件 标识 符 和 
行 号 ， 值 可 以 是 行内 容 的 字符 串 。RecordReader 将 每 个 键 值 对 呈现 给 用 户 提供 的 map 操 
作 ，map 再 输出 一 个 或 多 个 中 间 键 值 对 。 这 时 一 般 会 使 用 combiner 进行 优化 ， 它 聚合 单个 
mapper 的 输出 ， 和 reducer 的 工作 原理 类 似 ， 但 是 不 涉及 整个 键 空间 。 这 项 预备 工作 减少 
了 reducer 的 工作 量 ， 能 提高 其 性 能 。 


中 间 阶 段 的 键 从 map 过 程 被 拉 到 partitioner，partitioner 决定 如 何 将 键 分 配给 reducer。 通 常 
假定 键 空间 是 均匀 分 布 的 ， 因 此 散 列 函数 用 于 在 reducer 之 间 均 匀 地 划分 键 。partitioner 还 
对 键 值 对 进行 排序 ， 以 便 实现 完整 的 “shuffle 和 sort” 阶 段 。 最 后 ，reducer 开始 工作 ， 为 
每 个 键 生 成 数据 迭代 器 并 执行 reduce 操作 ， 如 聚合 。 输 出 的 键 值 对 将 使 用 0utputFormat 类 
写 回 到 HDFS。 


在 MapReduce 集群 执行 上 下 文中 ， 也 有 其 他 许多 管理 大 规模 作业 的 工具 。 仅 举 几 个 例子 ， 
Counter 和 Reporter 对 象 用 于 作业 跟踪 和 评估 ， 缓 存 用 于 在 处 理 期 间 提供 辅助 数据 。 高 级 
框架 (如 Pig 或 Hive) 通常 都 实现 了 这 些 工 具 ， 供 开发 人 员 使 用 。 但 在 第 3 章 中 ， 我 们 将 
看 到 如 何 使 用 Python 和 Hadoop Streaming 来 实现 这 些 功能 。 


























大 数据 操作 系统 | 23 


MapReduce 示 例 

为 了 演示 数据 流 经 map 和 reduce 的 过 程 ， 我 们 将 演示 两 个 具体 的 例子 : 单词 计数 和 共同 
好 友 。 这 两 个 应 用 程序 虽然 简单 ， 但 却 能 演示 分 布 式 系统 内 的 数据 流动 过 程 。 特 别 是 单 
词 计数 ， 因 为 它 经 党 被 用 于 演示 分 布 式 计算 任务 ， 所 以 通常 被 称 为 大 数据 界 的 “Hello， 
World”。 因 为 单词 计数 和 共同 好 友 属于 “ 易 并 行 ”问题 ， 所 以 它们 不 仅 能 帮助 我 们 理解 
MapReduce， 还 能 指出 应 用 程序 的 设计 是 否 存在 根本 缺陷 。 


单词 计数 应 用 程序 以 一 个 或 多 个 文本 文件 作为 输入 ， 生 成 一 份 单词 及 其 频率 的 列表 。 有 具体 
来 说 ， 因 为 Hadoop 使 用 键 值 对 ， 所 以 输入 的 键 是 文件 ID 和 行 号 ， 输入 的 值 是 字符 串 ， 而 
输出 的 键 是 单词 ， 输 出 的 值 是 一 个 整数 。 我 们 立刻 就 会 发 现 ， 这 可 以 采用 多 种 方式 并 行 
化 。 首 先 ， 每 个 mapper 可 以 处 理 单个 文档 ， 如果 文档 非常 大 ，mapper 可 以 处 理 单个 文档 
中 的 多 个 块 map 操作 不 关心 单词 的 上 下 文 ， 它 只 统计 作为 输入 的 单词 的 个 数 。 同 理 ， 
可 以 用 多 个 reducer 同时 处 理 不 同 的 键 ， 因 为 输出 键 是 一 个 单词 。 以 下 Python 伪 代 码 展示 
了 如 何 实现 此 算法 : 


# emit 是 一 个 执行 Hadoop I/0 的 函数 O@ 













































































def map(dockey, line): 
for word in Line.split(): 
emit(word, 1) 


def reduce(word, values): 
count = sum(value for value in values) 
emit(word, count) 


@ 从 参数 的 角度 孝 虑 ，emit 是 一 个 执行 Hadoop IO 的 函数 ， 也 就 是 说 ， 它 将 其 参数 发 送 

到 MapReduce 流水 线 的 下 一 个 阶段 ， 类 似 于 Python 中 的 yield 函数 。 
在 图 2-7 中 有 两 个 文档 ， 包 含 两 个 简单 句子 。map 国 数 将 接收 文本 的 某 个 唯一 ID ， 以 及 该 
文档 内 容 的 字符 串 。 它 通过 空格 和 标点 符号 分 割 值 (获取 所 有 单词 )， 并 将 每 个 单词 作为 
中 间 键 、 值 为 1 发 出 一 一 因为 mapper 已 经 看 到 该 单词 出 现 了 一 次 。 每 个 mapper 的 数据 如 
下 所 示 : 


# WordCount mapper 的 输入 









































(27183, "The fast cat wears no hat.") 
(31416, "The cat in the hat ran fast.") 





# mapper 1 的 输出 


("The"，1)，("fast"，1)，("cat"，1)，("wears"，1)， 
("no", 1)s ("hat", Cs 1) 





# mapper 2 的 输出 


("The", 1 ("cat", 1); ("in", 1); ("the", 1) ， 
(at Crane fast 1),(" .1) 




















图 2-7: 在 集群 上 执行 的 有 两 个 mapper 和 两 个 reducer 的 单词 计数 作业 的 数据 流 


这 些 数据 被 传递 到 shuffle 阶段 和 sort 阶段 ， 键 (单词 ) 被 分 组 并 排序 ， 然 后 发 送 到 适当 的 
reducer。 每 个 reducer 接收 以 单词 作为 键 、 一 串 数字 1 作为 值 的 输入 。 为 了 获得 计数 ， 它 
简单 地 将 这 些 数字 1 相 加 ， 并 将 单词 作为 键 、 计 数 作为 值 发 出 。 示 例 中 的 输入 和 输出 的 数 
据 如 下 所 示 : 


# WordCount reducer 的 输入 
# 该 数据 由 shuffle 和 sort 计 算 


Cs lt 1]) 
("cat", [1, 1]) 
("fast", [1, 1]) 
("hat", [1, 1]) 
("in", [1]) 
("no", [1]) 
("ran", [1]) 
("the", [1]) 
("wears", [1]) 
("The", [1, 1]) 


六 


所 有 WordCount reducer 的 输出 


2) 
"cat", 2) 
"fast", 2) 
"hat", 2) 
"in", 1) 
"no", 1) 
"ran", 1) 
"the", 1) 
"wears", 1) 
("The", 2) 


这 种 算法 看 似 简单 ， 但 是 它 稍微 复杂 一 点 的 实现 常 被 用 于 文本 处 理 。 想 象 一 下 如 何 计算 
《纽约 时 报 》 或 Google 图 书 语料库 中 最 常 出 现 的 单词 一 一 这 肯定 需要 某 种 大 数据 技术 。 使 
用 n-gram 语言 模型 可 以 对 同时 出 现 的 单词 进行 计数 ， 以 查看 一 起 出 现 的 两 个 单词 之 间 是 否 
存在 统计 意义 ， 如 white house (白宫 ) 或 baseball bat (棒球 棒 )。 此 外 ， 了 解数 据 如 何 从 


一 一 一 一 一 一 一 一 一 
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输入 源 通过 map 操作 流 到 reduce 操作 再 产生 输出 ， 对 于 在 分 布 式 环 境 中 开发 分 析 过 程 和 数 
据 工 程 任务 至 关 重 要 。 














接 下 来 学 习 一 个 稍微 复杂 些 的 例子 ， 以 确保 MapReduce 有 意义 。 共 同好 友 任 务 的 目标 是 通 


过 分 析 社 交 网 络 ， 


查看 用 户 间 有 哪些 共同 好 友 。 这 既是 进行 下 游 分 析 (例如 “你 可 能 认识 





的 人 ”推荐 ) 的 第 一 步 ， 也 是 实现 只 \ 充 许 你 与 朋友 及 朋友 的 朋友 分 享 内 容 的 社交 网 络 的 
个 关键 部 分 。 给 定 输 入 数据 源 ， 其 中 键 是 用 户 的 名 称 ， 值 是 用 逗号 分 隔 的 朋友 列表 ， 以 下 











Python 伪 代 码 演示 如 何 执行 此 计算 : 


mapper 从 初始 数据 集 创建 中 间 键 空 


def map(person, friends): 


for friend ;in friends.split(","): 
pair = sort([person, friend]) 
emit(pair, friends) 


def reduce(pair, friends): 


shared = set(friends[ 


0]) 


shared = shared.intersection(friends[1]) 


emit(pair, shared) 











< 间 ， 其 中 包含 所 有 可 能 存在 的 (friend，friend) 元 组 。 


因为 值 是 好 友 列 表 ， 所 以 可 以 针对 每 个 关系 分 析 数 据 集 。 此 外 ， 请 注意 该 关系 对 已 经 被 排 


序 ， 这 确保 了 ("Mike"， 


入 和 mapper 输出 如 下 所 示 : 


# 输入 ( 键 > 值 ) 


ALLen > Betty, Chris, David 
Betty -> Allen, Chris, David, Ellen 
Chris > Allen, Betty, David, Ellen 
David > Allen, Betty, Chris, Ellen 
Ellen > Betty, Chris, David 





# mapper 1 的 输出 
(Allen, Betty) > (Betty, 
(Allen, Chris) > (Betty, 
(Allen, David) > (Betty, 





# mapper 2 的 输出 
(Allen, Betty) > (ALLen， 
(Betty, Chris) > (ALLen， 
(Betty, David) > (ALLen， 
(Betty, Ellen) > (ALLen， 





# mapper 3 的 输出 
(Allen, David) > (ALLen， 
(Betty, David) > (ALLen， 
(Chris, David) > (ALLen， 
(David, Ellen) > (ALLen， 





# mapper 4 的 输出 
(Betty, Ellen) > (Betty, 
(Chris, Ellen) > (Betty, 
(David, Ellen) > (Betty, 


Chris, 
Chris, 
Chris, 


Chris, 
Chris, 
Chris, 
Chris, 


Chris, 
Chris, 
Chris, 
Chris, 


Chris, 
Chris, 
Chris, 


"Linda") 和 ("Linda", 


David) 
David) 
David) 


David ， 
David ， 
David ， 
David ， 


David ， 
David ， 
David ， 
David ， 


David) 
David) 
David) 


ELLen) 
Ellen) 
Ellen) 
Ellen) 


Ellen) 
Ellen) 
Ellen) 
Ellen) 


"Mike") 在 reducer 聚合 时 是 相同 的 键 。 输 








针对 数据 集中 存在 的 每 对 朋友 关系 ，reducer 确定 可 以 看 到 两 个 好 友 列 表 ， 每 个 好 友 列 表 对 
应 键 中 的 一 个 用 户 。 因 此 ， 为 了 执行 最 终 聚 合 ，reducer 先 简单 地 将 这 些 列表 转换 成 集合 ， 
并 求 两 者 间 的 交集 ， 即 共同 好 友 ， 然 后 ， 发 射 该 交集 ， 其 中 包含 按 字 母 顺序 排列 的 关系 元 
组 和 相关 的 好 友 。 请 注意 ，reducer 可 以 简单 地 为 关系 中 的 每 个 人 发 射 结 果 ， 这 可 能 对 其 他 
应 用 程序 的 下 游 数 据 加 载 有 帮助 。 流 入 reducer 的 数据 如 下 所 示 : 

# 经 过 shuffle 和 sort 之 后 ,reducer 的 输入 












































(Allen, Betty) > (AC 
(Allen, Chris) > (AB 
(Allen, David) > (ABCE) (BCD) 

(Betty，Chris) > (ABDE) (ACD E) 


D E) (BC D) 
D 
C 
D 

(Betty, David) > (ABCE)(ACD E) 
D 
C 
D 
C 


E) (BC D) 


(Betty，ELLen) > (ACDE) (BCD) 
(Chris, David) > (AB 
(Chris, Ellen) > (AB 
(David, Ellen) > (AB 


# reduce 之 后 


(Allen, Betty) » (Chris, David) 
(Allen, Chris) > (Betty, David) 
(Allen, David) > (Betty, Chris) 
(Betty, Chris) > (Allen, David, Ellen) 
(Betty, David) > (Allen, Chris, Ellen) 
(Betty, Ellen) > (Chris, David) 
(Chris, David) > (Allen, Betty, Ellen) 
(Chris, Ellen) > (Betty, David) 
(David, Ellen) > (Betty, Chris) 


本 市 中 的 具体 示例 (单词 计数 和 共同 好 友 ) 展示 了 数据 流 经 MapReduce 作业 的 过 程 ， 并 给 
出 了 如 何 开发 这 种 作业 的 思路 一 一 从 想象 map 阶段 和 reduce 阶段 的 数据 流动 过 程 开始 就 不 
错 。 确 定 需 要 输入 和 输出 的 键 也 有 助 于 指导 流水 线 的 每 个 阶段 应 该 做 什么 。 





2.4.3 ”不止 一 个 MapReduce: 作业 链 


将 常规 解决 问题 的 工作 流 稍 作 转 变 以 满足 map 函数 和 reduce 函数 的 无 状态 运算 和 交互 后 ， 
就 可 以 用 MapReduce 轻松 实现 许多 算法 或 数据 处 理 任务 。 但 是 单个 MapReduce 作业 无 法 
实现 更 复杂 的 算法 和 分 析 。 例 如 ， 许 多 机 器 学 习 或 预测 分 析 技 术 需 要 优化 ， 即 最 小 化 误差 
的 迭代 过 程 。MapReduce 不 支持 通过 单个 map 或 reduce 进行 运 代 。 


看 来 有 必要 对 这 些 术语 进行 一 番 讨 论 。 在 MapReduce 中 ， 作 业 实 际 上 指 的 是 完整 的 应 用 程 
序 (application 或 program)， 即 对 所 有 输入 数据 执行 nap 函数 和 reduce 函数 的 完整 过 程 。 
复杂 的 分 析 作 业 通 常 由 许多 内 部 任务 组 成 ， 其 中 的 任务 是 指 对 一 个 数据 块 执行 单个 map 运 
算 或 reduce 运算 的 过 程 。 因 为 有 许多 worker 节点 在 同时 执行 类 似 的 任务 ， 所 以 一 些 数 据 
处 理工 作 流 可 以 运行 “只 有 map” 或 “只 有 reduce” 的 作业 。 例 如 ， 分 箱 方 法 可 以 利用 内 
置 的 partitioner 将 类 似 的 数据 分 在 一 组 。 分 箱 后 的 数据 可 以 用 于 下 游 的 其 他 MapReduce 作 
业 ， 执 行 频 率 分 析 或 计算 概率 分 布 。 
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事实 上 ， 更 复杂 的 应 用 程序 是 通过 被 称 为 “作业 链 ” 的 过 程 ， 使 用 多 个 MapReduce 作业 
执行 单个 计算 来 构建 的 。 如 图 2-8 所 示 ， 通 过 创建 流 经 中 间 MapReduce 作业 系统 的 数据 
流 ， 可 以 创建 一 个 分 析 步 又 的 流水 线 ，51 导 我 们 得 到 最 终结 果 。 分 析 人 员 和 开发 人 员 的 
工作 是 设计 实现 map 和 reduce 的 算法 ， 以 得 到 单一 的 分 析 结 论 ， 这 部 分 将 在 第 3 章 进 行 
详细 探讨 。 




















2-8: 复杂 的 算法 或 应 用 程序 实际 上 是 通过 MapReduce 作业 链接 而 成 的 ， 其 中 下 游 MapReduce 
作业 的 输入 是 最 近 的 上 游 作 业 的 输出 


本 书 探讨 如 何 将 计算 框架 从 传统 的 返 代 分 析 转 变 为 可 用 于 大 规模 计算 的 “数据 流 ”。 数 据 
流 是 作业 或 运算 的 有 向 无 环 图 ， 被 用 于 针对 大 型 数据 集 实现 某 种 最 终 计 算 。 最 终 ， 大 数据 
应 用 程序 的 主要 数据 工程 工作 是 过 滤 和 聚合 大 型 数据 集 ， 以 进行 最 后 一 英里 计算 一 一 数据 
可 以 放 入 内 存 进行 计算 。 显 而 易 见 ， 链 式 作业 适合 这 种 数据 处 理 模型 ， 其 他 数据 处 理 系 统 
(如 Storm 和 Spark) 也 与 它 有 关 。 


2.5 回 YARN 提 交 MapReduce 作 业 


MapReduce 的 API 是 用 Java 编写 的 ， 因 此 提交 给 集群 的 MapReduce 作业 是 编译 好 的 Java 
归档 (Java Archive，JAR) 文件 。Hadoop 将 JAR 文件 通过 网 络 传输 到 运行 任务 (mapper 
或 reducer) 的 每 个 节点 ， 并 执行 MapReduce 作业 的 各 个 任务 。 


虽然 本 书 探索 了 儿 种 编写 Hadoop 分 析 作 业 的 方法 ， 但 是 我 们 的 应 用 程序 将 
主要 通过 Python 编写 ， 使 用 MapReduce Streaming 或 Spark。 在 某 些 情况 下 ， 
本 书 还 将 使 用 Hive 和 Pig 演示 在 集群 上 执行 数据 分 析 的 其 他 方法 。 























单词 计数 示例 演示 了 分 布 式 计算 的 强大 功能 ， 以 及 如 何 计算 非 结构 化 数据 。 请 从 Hadoop 
Fundamentals 仓库 (https://github.com/bbengfort/hadoop-fundamentals) 下 载 单词 计数 的 Java 
示例 程序 WordCount.zip， 其 中 包含 以 下 文件 。 
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WordCount.java 
执行 作业 的 MapReduce 驱动 类 。 


WordMapper.java 
发 射 单词 的 mapper 类 。 


SumReducer.java 
统计 单词 的 reducer 类 。 


使 用 如 下 命令 将 Hadoop 作业 编译 成 一 个 JAR 文件 : 


hostname $ hadoop com.sun.tools.javac.Main WordCount.java 
hostname $ jar cf wc.jar WordCount*.class 


这 会 在 当前 工作 目录 中 创建 一 个 wc.jar 文件 。 请 注意 ， 这 假定 几 个 环境 变量 已 被 正确 配 
置 ， 包 括 JAVA_HOME 和 HADOOP_CLASSPATH。 有 关 环 境 变 量 的 详细 信息 ， 请 参见 附录 A。 
为 了 将 作业 提交 到 集群 并 计算 莎士比亚 作品 全 集 的 字数 ， 使 用 hadoop jar 命令 。 该 命令 连 
接 到 ResourceManager， 并 发 送 wc.jar 文件 ， 使 其 在 集群 的 所 有 节点 上 执行 。 该 命令 需 
作业 归档 文件 的 路 径 ， 以 及 要 调用 的 main 方法 所 在 的 类 名 。 然 后 ， 将 其 他 命令 行 参 数 传递 
到 作业 本 身 。 这 个 简单 程序 需要 竺 分 析 数 据 的 输入 路 径 ， 以 及 写 入 结果 的 输出 路 径 。 输 入 
路 径 和 输出 路 径 都 是 HDFS 路 径 ， 并 且 输 出 路 径 不 能 在 分 布 式 文件 系统 上 ， 否 则 会 出 现 错 
误 (为 了 防止 覆盖 或 删除 集群 上 的 数据 )。 作 业 提 交 如 下 所 示 : 

hostname $ hadoop jar wc.jar WordCount shakespeare.txt wordcounts 
作业 将 执行 并 输出 mapper 和 reducer 的 状态 ， 并 且 在 完成 时 报告 作业 完成 情况 的 统计 信 
息 。 一 旦 完成 ， 作 业 的 结果 将 写 入 wordcounts 目录 ， 可 以 按 如 下 方式 查看 该 目录 : 

hostname $ hadoop fs -ls wordcounts 
可 以 看 到 几 个 名 字 类 似 于 part-00000 的 输出 文件 。 事 实 上 ， 在 计算 中 使 用 的 每 个 reducer 都 
应 该 有 一 个 part 文件 。 此 外 ， 还 应 该 有 一 个 _SUCCESS 文件 和 一 个 _logs 目录 ， 用 于 存储 
有 关 作 业 的 信息 。 为 了 读 取 作业 的 结果 ， 针 对 远程 文件 系统 中 的 part 文件 执行 cat 命令 ， 
并 通过 管道 传输 给 less: 

hostname $ hadoop fs -cat wordcounts/part-00000 | Less 
如 果 MapReduce 作业 出 现 问 题 ， 你 得 能 停止 它 。( 试 想 一 下 ， 你 不 小 心 向 mapper 或 
reducer 添加 了 无 限 循环 或 内 存 密 集 型 进程 ! ) 但 是 键入 Ctrl + C (在 Unix 上 发 出 键盘 中 
断 ) 只 能 终止 显示 进度 的 进程 ， 而 不 能 真正 停止 作业 ! hadoop job 命令 让 你 能 管理 当前 运 
行 在 集群 上 的 作业 。 使 用 -tist 命令 列 出 所 有 正在 运行 的 作业 : 

hostname $ hadoop job -list 
通过 输出 来 标识 要 终止 的 作业 的 ID ， 然 后 通过 -kill 命令 终止 该 作业 : 

hostname $ hadoop job -kill $JOBID 


与 NameNode 的 Web 接口 类 似 ，ResourceManager 也 提供 了 一 个 Web 接口 来 查看 作 
业 的 状态 及 日 志文 件 。 可 以 通过 托管 ResourceManager 服务 的 机 器 的 8088 端口 访问 
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ResourceManager 的 Web UI， 此 Web UI 显 示 所 有 当前 正在 运行 的 作业 ， 以 及 集群 中 
NodeManager 的 状态 。ResourceManager 不 跟踪 作业 的 历史 记录 ， 但 是 可 以 通过 JobHistory 














服务 器 访问 历史 记录 一 一 在 托管 JobHistory 服务 器 的 机 器 的 19888 端口 上 访问 JobHistory 
服务 器 。 
2.6 ”小结 


本 章 介 绍 了 关于 Hadoop 集群 架构 的 大 量 细节 ， 并 简要 介绍 了 大 规模 分 布 式 计算 系统 的 需 
求 和 实现 的 许多 要 点 。 然 而 ， 这 并 不 意味 着 我 们 已 经 介绍 了 全 部 内 容 一 一 相反 ， 目 前 只 是 
为 介绍 本 书 中 的 概念 提供 了 足够 的 背景 知识 。 之 所 以 要 如 此 介绍 MapReduce 的 概念 细 市 ， 
是 为 了 给 开发 分 布 式 算法 打下 基础 。 在 此 基础 上 ， 本 书 将 继续 讨论 更 复杂 的 分 析 算法 ， 让 
你 了 解 它们 的 工作 原理 。 不 过 ， 本 书 不 会 对 具体 的 实现 进行 更 深入 的 讨论 。 

因为 本 书 的 目标 是 成 为 Hadoop 分 布 式 计算 的 入 门 指导 ， 所 以 它 不 会 关注 Hadoop 集群 的 
搭建 、 配 置 或 维护 ， 而 是 关注 分 析 人 员 与 Hadoop 的 交互 。 因 此 ， 下 一 章 将 通过 Hadoop 
Streaming， 研 究 如 何 使 用 Python 编写 简单 的 MapReduce 分 布 式 作业 。 


























第 3 章 


Python 框架 和 Hadoop Streaming 





当前 版 本 的 Hadoop MapReduce 是 一 个 软件 框架 ， 用 于 编写 在 集群 上 并 行 处 理 大 量 数 据 的 
作业 ， 也 是 Hadoop 自 带 的 原生 分 布 式 处 理 框架 。 该 框架 提供 一 个 Java API， 人 允许 开发 人 
员 指 定 HDFS 上 的 输入 输出 位 置 、map 和 reduce 函数 以 及 其 他 作业 参数 (比如 作业 配置 )。 
作业 被 编译 并 打包 成 JAR 文件 ， 作 业 客 户 端 将 其 提交 给 ResourceManager ， 这 一 步 通常 通 
过 命令 行 完 成 。 然 后 ，ResourceManager 调度 任务 ， 监 控 任 务 ， 并 将 状态 提供 给 客户 端 。 
通常 ，MapReduce 应 用 程序 由 3 个 Java 类 组 成 : Job、Mapper 和 Reducer。mapper 和 
reducer 处 理 键 值 对 计算 的 细节 ， 通 过 shuffle 阶段 和 sort 阶段 连接 。 作 业 通 过 指定 要 从 
HDFS 序列 化 的 数据 的 InputFormat 和 0utputFormat 类 ， 来 配置 输入 数据 和 输出 数据 的 格 
式 。 所 有 这 些 类 都 必须 扩展 抽象 基 类 或 实现 MapReduce 中 的 接口 。 考 庸 多 言 ， 开 发 Java 
MapReduce 应 用 程序 是 非常 复杂 的 。 


但 是 ，Java 不 是 MapReduce 框架 的 唯一 选择 。 例 如 ，C++ 开发 人 员 可 以 使 用 Hadoop Pipes， 
它 提供 了 一 个 能 使 用 HDFS 和 MapReduce 的 API。 但 数据 科学 家 最 感 兴趣 的 还 是 Hadoop 
Streaming， 这 是 一 个 用 Java 编写 的 实用 程序 ， 可 以 将 任何 可 执行 程序 指定 为 mapper 
或 reducer。 通 过 Hadoop Streaming，shell 实用 程序 、R 或 Python、 脚本 都 可 以 用 于 编写 
MapReduce 作业 ， 这 使 数据 科学 家 可 以 轻松 地 将 MapReduce 集成 到 他 们 的 工作 流 中 ， 特 
别 是 在 不 需要 大 量 软件 开发 的 日 常数 据 管 理 任务 中 。 


Hadoop Streaming 看 上 去 似乎 不 是 Hadoop 生态 系统 第 一 梯队 的 成 员 。 事 实 上 ， 大 
多 数 Hadoop 用 户 在 直接 使 用 Hadoop MapReduce 之 前 ， 很 可 能 使 用 过 更 高 级 别 
的 工具 ， 例 如 Pig 和 Hive。 虽 然 Sreaming 社区 的 规模 很 小 ， 但 是 有 很 多 框架 
都 是 基于 它 构建 的 ， 而 且 有 许多 云 计算 MapReduce 资源 (如 Amazon 的 Elastic 
MapReduce) 原生 包含 Steaming。 敏 捷 数 据 科学 利用 脚本 语言 和 Hadoop Steaming 
的 快速 开发 ， 可 以 快速 构建 数据 分 析 乃 至 大 规模 计算 作业 ， 包 括 机 器 学 习 任务 。 
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本 章 将 探讨 使 用 Hadoop Streaming 的 细节 ， 并 创建 一 个 小 框架 ， 从 而 使 用 Python 快速 编写 
MapReduce 作业 。 本 章 将 扩展 在 第 2 章 中 使 用 的 简单 WordCount 程序 ， 以 便 使 用 Python 
的 第 三 方 库 进 行 自 然 语 言 处 理 (natural language processing，NLP) ; 此外， 还 会 编写 一 
个 用 于 识别 文本 中 重要 短语 (bigram) 频率 的 MapReduce 作业 ; 最 后 ， 将 讨论 一 些 高 级 
的 MapReduce 主题 ， 这 对 于 如 何 理解 Hadoop， 以 及 如 何 将 这 些 主 题 应 用 于 Python 编写 的 
Streaming 作业 中 至 关 重 要 。 


3.1 Hadoop Streaming 


Hadoop Streaming 是 一 个 实用 程序 ， 被 打包 为 Hadoop MapReduce 发 行 版 附带 的 JAR 文件 。 
Streaming 作业 像 普 通 Hadoop 作业 一 样 ， 通 过 作业 客户 端 传递 到 集群 。 但 除了 可 以 指定 输 
入 和 输出 的 HDFS 路 径 的 参数 外 ， 它 还 可 以 指定 mapper 和 reducer 的 可 执行 程序 。 然 后 ， 
作业 作为 普通 MapReduce 作业 运行 ， 依 然 由 ResourceManager 和 MRAppMaster 管理 和 监控 ， 
直到 作业 完成 。 


为 了 执行 MapReduce 作业 ，Streaming 利用 标准 Unix 流 进行 输入 和 输出 ， 因 此 得 名 
Streaming。mapper 和 reducer 的 输入 都 是 从 stdin 读 取 的 ，Python 进程 可 以 通过 sys 模块 访 
问 stdin。Hadoop 要 求 由 Python 编写 的 mapper 和 reducer 将 它们 输出 的 键 值 对 写 到 stdout 
中 。 图 3-1 演示 了 MapReduce 中 的 这 个 过 程 。 虽 然 使 用 Python 的 Hadoop 开发 人 员 不 一 定 能 
够 通过 这 种 技术 访问 完整 的 MapReduce API (partitioner、 输 入 和 输出 格式 等 功能 必须 用 Java 
编写 )， 但 这 已 足以 实现 数据 科学 家 工作 流 中 许多 功能 强大 的 常见 作业 和 任务 了 。 





输入 输出 


stdin ey stdin 四 


mapper .py Teducer.py 


stdout stdout 














图 3-1: 使 用 Python 编写 的 mapper.py 和 reducer.py 的 Hadoop Streaming 中 的 数据 流 


不 要 把 Hadoop Streaming 与 Spark Streaming 或 其 他 使 用 “无 界 数 据 流 ”的 实 
时 计算 框架 (如 Apache Storm) 和 弄 混 了 。Hadoop Streaming 中 的 “ 流 ” 指 的 
是 标准 的 Unix 流 stdin、stdout 和 stderr， 而 Spark Streaming 和 Storm 对 
一 定时 间 内 从 窗口 流入 的 数据 进行 实时 分 析 一 一 它们 截然 不 同 ! 本 章 所 说 的 


“Streaming” 具 体 是 指 Hadoop Streaming。 
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当 Streaming 执行 作业 时 ， 每 个 mapper 任务 将 在 自己 的 进程 内 启动 提供 的 可 执行 文件 ， 然 
后 ， 将 输入 数据 转换 为 文本 行 并 将 其 输送 到 外 部 进程 的 stdin 的 同时 ， 从 stdout 收集 输 
出 。 输 入 数据 的 转换 通常 是 直接 将 值 序列 化 ， 因 为 数据 是 从 HDFS 读 取 的 ， 其 中 每 行 都 是 
一 个 新 值 。mapper 要 求 输出 是 键 或 值 格式 的 字符 串 ， 其 中 键 和 值 通 过 某 个 分 隔 符 分 隔 ， 默 
认为 制 表 符 〈\t)。 如 果 没 有 分 隔 符 ，mapper 就 认为 输出 只 有 键 ， 值 为 nuLL。 可 以 通过 向 
Hadoop Streaming 作业 传递 参数 来 定制 分 隔 符 。 


对 mapper 的 输出 进行 shuffle 和 sort 之 后 (确保 每 个 相同 的 键 都 发 送 给 同一 个 reducer)， 
reducer 也 启动 了 可 执行 文件 。mapper 输出 的 键 值 字符 串通 过 stdin 传输 到 reducer 作为 输 
入 ，reducer 的 输入 和 mapper 的 输出 相互 匹配 ， 并 保证 按键 分 组 。reducer 发 送 到 stdout 的 
输出 的 格式 应 该 与 mapper 的 键 、 分 隔 符 和 值 的 格式 相同 。 

此 ， 为 了 使 用 Python 编写 Hadoop 作业 ， 需 要 创建 两 个 Python 文件 : mapper.py 和 
reducer.py。 只 需要 在 这 两 个 文件 中 导入 sys 模块 ， 就 可 以 访问 stdin 和 stdout。 代 码 本 身 
需要 以 字符 串 的 形式 处 理 输 入 、 解 析 和 转换 每 个 数字 或 复杂 的 数据 类 型 ， 我 们 也 需要 将 输 
出 序列 化 为 字符 串 。 为 了 演示 它 是 如 何 工作 的 ， 我 们 将 尽 可 能 使 用 简单 的 Python 方法 来 实 
现 第 2 章 讨 论 的 WordCount 示例 。 

首先 ， 创 建 可 执行 mapper 文件 mapper.py: 


#!/usr/bin/env python 















































import sys 


if _ name _ == "__main ": 
for line in sys.stdin: 
for word in line.split(): 
sys.stdout.write("{}\ti\n".format(word)) 


mapper 只 是 简单 地 从 sys.stdin 读 取 每 一 行 ， 使 用 空格 拆 分 该 行文 本 ， 然 后 逐 行将 得 到 的 
每 个 单词 和 数字 1 写 入 sys.stdout， 并 用 制 表 符 将 两 者 分 隔 。reducer 则 更 复杂 一 些 ， 因 为 
针对 每 行 输入 ， 我 们 都 要 记录 正在 处 理 哪 个 键 ， 只 有 看 到 一 个 新 键 时 ， 才 能 发 射 一 个 完整 
的 和 。 这 是 因为 与 本 地 API 不 同 ， 单 个 数据 值 会 在 shuffle 和 sort 期 间 聚 合 到 流 进程 中 ， 而 
不 是 暴露 为 一 个 列表 或 迭代 器 。 请 记 住 ， 每 个 reducer 任务 都 可 以 看 到 同一 个 键 的 所 有 值 ， 
但 也 可 以 看 到 多 个 键 。 在 reducer.py 文件 中 实现 的 reducer 如 下 所 示 : 


#!/usr/bin/env python 


























import sys 


if _ name == '__ main _': 
curkey = None 
total = 0 
for Line in sys.stdin: 
key, val = line.split("\t") 
val = int(val) 


if key == curkey: 
total += val 
else: 
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if curkey is not None: 
sys.stdout.write("{}\t{}\n".format(curkey, total)) 


curkey = key 

total = val 
当 reducer 磷 代 stdin 输入 中 的 每 一 行 时 ， 它 会 根据 分 隔 符 拆 分 该 行 并 将 值 转换 为 整 
数 。 然 后 ， 它 执行 检查 以 确保 仍 在 为 同一 个 键 计数 ， 如 果 不 是 同一 个 键 ， 则 将 输出 写 入 
stdout 并 重新 启动 新 键 的 计数 。mapper 和 reducer 都 在 “ifmain” 块 中 执行 ， 本 章 后 再 
会 讨论 这 部 分 内 容 。 
如 果 你 学 习 过 如 何 使 用 Java 进行 MapReduce 编程 ， 你 可 能 会 以 为 stdin 
和 MapReduce 的 API 一 样 ， 一 次 只 接收 一 行 记 录 。 但 是 通过 Streaming， 
mapper 可 以 访问 块 中 的 每 一 行 ， 并 将 整个 数据 集 视 为 单个 项 目 。 此 外 ， 
reducer 也 不 像 在 Java API 中 那样 接收 累积 值 ， 而 是 接收 从 mapper 输出 
的 、 经 过 排序 的 逐 行 输入 。 我 们 将 使 用 groupby 来 模拟 积累 过 程 ， 但 它 不 
是 原生 的 。 




























































































每 个 Python 模块 都 在 自己 的 进程 内 执行 ， 因 此 它 拥 有 运行 时 所 有 可 用 的 处 理 和 内 存 资 源 。 
但 需要 注意 的 是 ， 由 于 Hadoop Streaming 把 每 个 mapper 和 reducer 都 视 为 可 执行 程序 ， 所 
以 每 个 Python 文件 都 应 以 #!/usr/bin/env _ python 开头 ， 从 而 提示 shell 应 该 使 用 Python， 
而 不 是 bash 来 解释 代码 。 


既然 我 们 已 经 充分 了 解 了 Hadoop Streaming 的 工作 原理 ， 那 么 就 来 挑战 一 下 更 复杂 的 
代码 ， 想 一 想 可 被 不 同 Streaming 作业 重用 的 高 质量 Python 代码 ， 并 有 具体 研究 如 何 使 用 
Hadoop Streaming 来 解析 CSV 数据 。 


3.1.1 使 用 Streaming 在 CSV 数 据 上 运行 计算 


虽然 Python 脚本 在 Hadoop Streaming 中 要 做 的 全 部 工作 只 是 读 取 stdin 的 内 容 并 将 其 写 入 
到 stdout， 但 是 我 们 仍然 可 以 改进 一 下 前 面 的 代码 ， 比 如 可 以 使 用 Python 标准 库 中 的 模 
块 进行 快速 迭代 、 字 符 串 处 理 等 。 本 节 将 开始 搭建 一 个 小 型 的 可 重用 框架 ， 从 而 为 大 数据 
处 理 需 求 快 速 部 署 Hadoop 作业 。 在 开始 之 前 ， 先 来 看 一 个 读 取 CSYV 数据 的 特定 示例 。 


因为 mapper 和 reducer 的 输入 和 输出 是 字符 串 ， 所 以 我 们 得 仔细 思考 应 该 在 系统 中 使 用 什么 
数据 类 型 ， 以 及 希望 Python 脚本 做 多 少 解析 工作 。 例 如 ， 可 以 使 用 内 置 的 ast. literal_eval 
来 解析 简单 数据 类 型 〈 例 如 数字 、 元 组 、 列 表 、 字 典 或 布尔 )， 或 者 用 结构 化 的 序列 化 格 
式 (例如 JSON 甚至 XML) 来 输入 和 输出 复杂 数据 结构 。 因 为 Streaming 逐 行进 行 序列 
化 ， 所 以 Python Streaming 作业 非常 适用 于 处 理 CSV 文件 和 其 他 纯 文本 文件 ， 在 我 们 的 数 
据 集 和 其 他 半 结 构 化 数据 存储 中 就 经 常见 到 这 些 格式 。 稍 后 将 讨论 其 他 类 型 ， 如 Avro 或 
其 他 可 以 使 用 的 二 进 制 序列 化 格式 。 

在 这 个 例子 中 ， 我 们 将 使 用 美国 国内 航班 准点 情况 数据 集 。 该 数据 集 由 美国 交通 部 交通 统 
计 局 提供 ， 可 以 从 其 网 站 (http://bit.ly/rita-transtats) 下 载 。( 本 书 的 GitHub 仓库 中 也 有 一 
个 该 数据 集 整 理 后 的 版 本 。) 美国 交通 统计 局 提供 了 一 个 CSV 文件 ， 其 中 包含 每 个 美国 国 
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内 航班 及 其 相关 运输 统计 数据 ， 如 到 达 或 离 港 延误 ， 可 用 于 分 析 。 在 本 例 中 ， 整 理 过 后 的 

数据 集 每 行 包含 的 CSV 数据 有 : 航班 日 期 、 航 空 公司 ID、 航班 号 、 始 发 机 场 和 到 达 机 场 、 

起 飞 时 间 和 延误 分 钟 、 到 达 时 间 和 延误 分 钟 ， 最 后 是 空中 飞行 时 间 以 及 里 程 。 
2014-04-01,19805,1,JFK,LAX,0854,-6.00,1217,2.00,355.00,2475.00 
2014-04-01,19805,2,LAX,JFK,0944,14.00,1736,-29.00,269.00,2475.00 


通过 计算 每 个 机 场 的 平均 起 飞 延 误 时 间 ， 我 们 将 示范 怎样 编写 结构 化 的 MapReduce Python 


代码 。 先 来 看 看 mapper， 在 mapper.py 


#!/usr/bin/env python 


import sys 
import csv 


SEP = "\t" 


class Mapper(object): 





文件 中 写 入 如 下 代码 : 





def _ init (self, stream, sep=SEP): 


self.stream = stream 
seLf .sep = sep 


def emit(self, key, value): 


sys.stdout.write("{}{}{}\n".format(key, self.sep, value)) 


def map(self): 
for row in self: 


self.emit(row[3], row[6]) 


def _ iter__(self): 


reader = csv.reader(self.stream) 


for row in reader: 
yield row 


if _ name _ == '_ main _': 
mapper = Mapper(sys.stdin) 
mapper .map() 
来 逐 行 看 一 下 这 上段 代码 。 第 一 行 的 #! 
用 什么 程序 来 执行 这 个 脚本 
简单 的 一 行 代码 就 创建 了 可 执行 脚本 ， 














后 面 的 儿 行 代码 导入 了 Python 标准 库 中 的 两 个 模块 





以 及 csv (用 于 快速 解析 CSV 数据 )。 





(声明 shebang) 告诉 Linux (具体 来 说 是 bash) 使 


本 例 使 用 默认 环境 中 的 Python， 不 管 它 是 什么 版 本 。 这 么 

















并 让 Hadoop Streaming 知道 如 何 处 理 我 们 的 文件 。 


sys (用 于 访问 stdin 和 stdout ) 
请 注意 ， 因 为 这 些 模 块 都 在 标准 库 中 ， 所 以 在 集群 











中 的 每 个 节点 上 都 可 以 使 用 它们 。 第 三 方 包 和 自 定义 代码 则 必须 进行 特殊 处 理 ， 之 后 的 内 


容 将 讨论 这 个 问题 。 














我 们 没有 创建 一 个 过 程式 的 脚本 处 理 


输入 ， 而 是 将 所 有 代码 都 写 在 Mapper 类 中 。 虽 然 





Python 实现 了 函数 式 编程 技术 ,但 它 











也 是 一 种 完全 面向 对 象 (object-oriented，OO) 的 编 
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程 语言 。 因 为 Python 是 一 种 解释 型 语言 ， 所 以 它 的 用 途 广泛 ， 从 用 于 系统 管理 的 便捷 脚本 
到 使 用 OO 设计 的 大 规模 软件 库 和 代码 库 ， 都 能 创建 松 而 合 系统 。 在 示例 代码 中 ， 我 们 使 
用 类 创建 了 一 个 可 扩展 的 API， 可 以 将 其 用 于 我 们 所 有 的 MapReduce 任务 。 这 上段 代码 的 目 
标 是 可 重用 和 可 用 于 生产 。 在 3.2 节 中 ， 我 们 将 把 在 此 示例 中 学 到 的 内 容 结 合 起 来 ， 构 建 
一 个 完整 的 微 框架 ， 用 于 部 署 使 用 Python 的 Hadoop Streaming 代码 。 


航班 平均 延误 时 间 示 例 的 Mapper 类 的 实例 化 需要 infile 和 separator 这 两 个 参数 ， 它 们 
都 有 默认 值 。infite 指向 接收 数据 的 位 置 ， 默 认 情 况 下 为 stdin， 这 是 Hadoop 的 预期 值 。 
但 你 可 以 将 这 段 代 码 修改 成 一 个 能 够 分 析 独 立 文件 的 通用 框架 ， 让 它 变 得 DRY (don’t repeat 
yourself， 不 做 重复 的 事情 )， 从 而 进行 各 种 规模 的 分 析 。Hadoop 使 用 键 值 对 进行 计算 ， 因 
此 第 二 个 参数 用 于 确定 输入 /输出 字符 串 的 哪个 部 分 是 键 ， 哪 个 部 分 是 值 。 默 认 情 况 下 
分 隔 符 是 制 表 符 〈(\t) 一 一 它 是 一 个 模块 级 “常量 ”， 人 允许 我 们 在 需要 时 快速 重新 定义 分 
隔 符 。 

下 一 个 要 注意 的 是 在 mapper 类 上 使 用 的 _iter 内 置 方 法 。 双 下 划 线 通常 表示 这 是 
Python 中 的 一 个 特殊 方法 或 函数 。 具 体 来 说 ，__iter__ 函数 的 实现 使 该 类 成 为 可 迭代 的 ， 
该 函数 返回 一 个 生成 器 (一 般 通 过 yield 语句 构造 ) ， 这 是 另 一 个 可 迭代 的 对 象 ， 该 国 数 如 
果 简 单 地 返回 setf， 就 必须 同时 实现 next 或 next 方法， 这 两 个 方法 在 迭代 完成 时 抛 
出 StopIteration。 这 个 类 现在 可 以 用 于 for 语句 ， 如 : 


for item in Mapper(): 
print item 


执行 这 行 代码 时 ，Python 会 调用 __iter__ 方法 来 确定 如 何 迭 代 mapper 类 的 实例 一 一 本 例 
通过 使 用 csv.reader 解析 stdin 的 每 一 行 ， 并 产生 每 一 行 。 我 们 的 类 在 map 方法 中 将 自己 
作为 迭代 器 ， 因 此 可 以 循环 遍历 self 中 的 每 一 行 ， 也 就 简单 地 循环 遍历 了 infile 中 的 每 
一 行 。 然 后 ， 它 将 输出 始 发 机 场 (位置 3) 并 将 此 作为 键 ， 将 起 飞 延误 时 间 (位 置 6) 作为 
值 ， 再 使 用 emit 方法 发 射出 去 一 一 简单 地 将 由 sep 分 隔 的 键 和 值 作为 单行 写 入 stdout。 


这 上 段 代 码 的 最 后 一 部 分 是 if _nane =="_main_" 抉 也 被 称 为 “ifmain”。 在 Python 
中 ， 只 有 脚本 作为 程序 的 主 入 口 点 运行 时 ， 此 条 件 才 会 被 触发 ， 被 导入 的 脚本 不 会 运行 该 
方法 。Python 开发 人 员 使 用 它 来 判断 代码 是 否 在 一 个 库 中 ， 或 者 确保 任何 执行 的 代码 都 在 
Python 脚本 的 底层 运行 ， 以 方便 调试 。 通 过 这 个 语句 ， 可 以 确保 这 个 块 只 有 在 作为 mapper 
直接 传递 给 Hadoop Streaming 时 才 被 执行 ， 如 果 是 导入 代码 以 继承 mapper 〈 例 如 我 们 的 微 
框架 )， 这 个 块 就 不 会 被 执行 。 现 在 来 看 看 reducer， 在 reducer.py 文件 中 写 入 如 下 代码 : 


#!/usr/bin/env python 









































































































































import sys 


from itertools import groupby 
from operator import itemgetter 


SEP = "\t" 


class Reducer(object): 





36 | 第 3 章 


def _ init (self, stream, sep=SEP): 
self.stream = stream 
seLf .sep sep 


def emit(self, key, value): 
sys.stdout.write("{}{}{}\n".format(key, self.sep, value)) 


def reduce(self): 
for current, group in groupby(self, itemgetter(0)): 

total = 0 

count | 


for item in group: 
total += item[1] 
Count += 1 
self.emit(current, float(total) / float(count)) 


def _ iter__(self): 
for line in self.stream: 
try: 
parts = line.split(self.sep) 
yield parts[0], float(parts[1]) 
except: 
continue 


if _ name == '__ main _': 
reducer = Reducer(sys.stdin) 
reducer .reduce() 


Reducer 类 与 mapper 类 非常 相似 ， 但 我 们 在 这 段 代 码 中 引入 了 一 些 新 的 项 目 一 一 一 个 内 
存 安全 的 迭代 器 帮助 函数 groupby 和 一 个 操作 符 国 数 itemgetter。 和 mapper 一 样 ， 在 
reduce 函数 中 也 使 用 一 个 迭代 器 遍历 整个 数据 集 ， 分割 键 和 值 。 在 本 例 中 ， 键 和 值 是 使 用 
separator 分 割 的 。 键 是 由 分 隔 符 拆 分 的 第 一 个 项 目 ， 使 用 Python 切片 ; 值 是 第 一 个 分 隔 
符 之 后 的 其 他 所 有 内 容 。 这 与 Hadoop Streaming 处 理 map 任务 的 输出 时 的 默认 行为 相 匹 
配 ， 即 将 第 一 个 制 表 符 前 面 的 所 有 字符 作为 键 ， 剩 下 的 都 作为 值 。 由 于 本 例 使 用 了 浮 点 除 
法 来 计算 平均 值 ， 所 以 简单 地 将 字符 串 值 解析 为 浮 点 数 。 


在 Python 代码 中 考虑 错误 处 理 是 极其 重要 的 。 比 如 ， 如 果 输 入 数据 损坏 了 
(不 是 浮 点 数 或 不 可 分 析 )， 那 么 将 值 解析 成 浮 点 数 时 极 易 发 生 ValueError 异 
常 。 请 注意 ， 异 常 处 理 在 处 理 大 数据 集 时 至 关 重要 。 一 种 常用 的 策略 是 跳 过 
引发 异常 的 行 ， 因 为 还 有 大 量 的 数据 需要 计算 。 


















































经 过 Hadoop 流水 线 中 的 shuffle 阶段 和 sort 阶段 之 后 ， 进 入 reducer 的 数据 的 键 是 按 字 母 
顺序 排序 的 ， 所 以 我 们 希望 自动 将 键 及 其 值 组 合 在 一 起 。groupby 方法 以 内 存 安全 的 方式 
实现 了 这 一 目标 ， 让 你 能 访问 键 ， 并 像 访 问 列表 一 样 访问 值 。 内 存 之 所 以 是 安全 的 ， 是 因 
为 groupby 返回 的 不 是 一 个 保存 在 内 存 中 的 列表 ， 而 是 一 个 迭代 器 ， 并 且 一 次 只 读 取 一 行 
(因此 确保 大 数据 集 不 会 让 worker 节点 的 资源 容量 不 堪 重 负 ) 。itemgetter 函数 简单 地 指定 
了 应 该 根据 每 个 元 组 的 哪个 值 进行 分 组 一 一 在 本 例 中 ， 是 元 组 的 第 一 个 元 素 。 
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在 将 值 进行 高 效 的 内 存 分 组 之 后 ， 简 单 地 将 延误 时 间 相 加 ， 除 以 航班 数 ， 然 后 发 射 机 场 作 
为 键 、 平 均值 作为 值 的 输出 。 虽 然 代 码 变 得 元 长 了 ， 但 希望 创建 微 框架 的 过 程 能 更 加 清 
蜥 ， 微 框架 能 消除 这 段 代 码 中 的 大 部 分 重复 代码 ， 并 使 其 可 重用 。 


3.1.2 执行 Streaming 作 业 


在 介绍 如 何 通过 将 作业 提交 到 作业 客户 端 从 而 在 Hadoop 集群 上 执行 Streaming 作业 之 前 ， 
先 来 看 一 个 不 产生 Hadoop 集群 开销 的 脚本 测试 高 招 。 因 为 Streaming 使 用 Unix 标准 管道 ， 
所 以 可 以 使 用 Linux 管道 和 sort 命令 模拟 Hadoop MapReduce 流水 线 。 


要 测试 代码 ， 请 先 确保 mapper.py 和 reducer.py 是 可 执行 的 。 只 需 在 终端 中 使 用 chmod 命 
令 ， 如 下 所 示 : 


hostname $ chmod +x mapper.py 
hostname $ chmod +x reducer.py 


要 通过 CSYV 文件 作为 输入 来 测试 mapper 和 reducer 的 话 ， 可 以 使 用 cat 命令 输出 文件 的 内 
容 ， 通 过 管道 将 输出 从 stdout 传输 到 mapper.py 的 stdin， 再 传输 到 sort， 然 后 到 reducer.py， 
最 后 将 结果 打印 到 屏幕 上 。 要 测试 上 一 节 中 计算 每 个 机 场 平 均 延 误 时 间 的 mapper 和 
reducer 的 话 ， 可 以 在 终端 中 执行 以 下 命令 ， 其 中 mapper.py、reducer.py 和 fights.csv 都 在 
当前 工作 目录 中 : 


hostname $ cat flights.csv | ./mapper.py | sort | ./reducer.py 













































































ABE -3.57142857143 
ABI 55.375 

ABQ 3.83333333333 
ABR -4.0 

ABY -1.33333333333 
ACT -8.2 

ACV 109.142857143 
ACY -8.0 

ADQ -14.0 

AEX -6.55555555556 
AGS 31.4 

ALB -1.5 

ALO -8.5 

AMA 0.8 

TNF -7.0 

TXK -4.66666666667 
TYR -6.71428571429 
TYS 12.9583333333 
VEL -7.5 

VLD -5.0 

VPS 5.06666666667 
WRG -3.75 

XNA 14.2580645161 
YAK -17.5 

YUM -0.222222222222 


Unix 管道 是 一 种 测试 Hadoop Streaming 的 mapper 和 reducer 的 方法 ， 既 简单 又 有 效 ， 还 
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能 有 效 说 明 集 群 是 如 何 使 用 mapper 和 reducer 代码 的 。 这 种 方法 非常 适合 在 编写 脚本 时 进 
行 快速 测试 ， 因 为 你 不 用 等 待 Hadoop Streaming 作业 完成 ， 也 不 需要 解析 Java 调用 过 程 
(traceback)。 如 果 你 在 进行 测试 驱动 开发 (这 是 敏捷 数据 科学 的 自然 补充 )， 则 可 以 使 用 
Popen 模拟 管道 进行 集成 测试 。 

在 下 面 的 示例 中 ， 我 们 使 用 $HAD00P_HOME 之 类 的 环境 变量 指定 特定 的 路 径 或 
配置 。 尽 管 这 些 环境 变量 的 名 称 在 每 个 Hadoop 发 行 版 中 可 能 有 所 不 同 ， 但 
它们 通常 在 发 行 版 安装 时 就 已 经 被 设置 好 了 。 本 书 示例 假设 你 使 用 的 是 伪 分 
布 式 的 节点 设置 ， 如 附录 A 所 述 。 















































为 了 将 代码 部 署 到 集群 ， 需 要 将 Hadoop Streaming JAR 提交 给 作业 客户 端 ， 并 传人 自 定 
义 的 操作 符 参数 。Hadoop Streaming 作业 的 位 置 取决 于 Hadoop 集群 的 设置 。 现 在 假设 你 
设置 了 环境 变量 SHADOOP_HOME 并 有 日 $SHADOOP_HOME/biin 在 $PATH 中 ，S$HADOOP_HOME 指定 了 
Hadoop 的 安装 位 置 。 这 样 就 可 以 按照 如 下 所 示 的 方法 在 集群 上 执行 Streaming 作业 : 
$ hadoop jar S$HADOOP_HOME/share/hadoop/tools/lib/hadoop-streaming-*.jar \ 
-input flights.csv \ 


-output average_delay \ 
-mapper mapper.py \ 
-reducer reducer.py \ 
-file mapper.py \ 

-file reducer .py 


请 注意 ， 这 里 使 用 了 -file 选项 ， 它 让 Streaming 作业 往 集群 上 发 送 脚本 (否则 程序 无 法 
在 节点 上 找到 这 些 脚本 )。 执 行 此 命令 将 在 Hadoop 集群 上 启动 该 作业 。mapper.py 脚本 和 
reducer.py 脚本 将 在 处 理 之 前 被 发 送 到 集群 中 的 每 个 节点 ， 并 应 用 于 流水 线 的 每 个 阶段 。 


如 果 有 需要 与 作业 一 起 发 送 的 其 他 文件 〈 如 航空 公司 ID 的 查找 表 )， 可 以 使 用 -file 选项 
将 它们 与 作业 打包 在 一 起 。 代 码 中 使 用 的 任何 第 三 方 依赖 也 应 与 作业 一 起 被 提交 ， 通 常 打 
包 在 Python ZIP 文件 中 。 对 于 较 大 的 依赖 文件 〈 例 如 NLTK) 或 者 需要 使 用 Cython 编译 
的 依赖 〈 例 如 NumPy 或 SciPy)， 则 需要 在 作业 启动 之 前 在 每 个 节点 的 系统 路 径 中 安装 相 
应 依赖 。 


Hadoop Streaming 有 许多 其 他 设置 ， 人 允许 用 户 指 定 Hadoop 库 中 的 类 作为 partitioner、 输 入 
和 输出 格式 等 。 但 是 Hadoop Streaming 也 可 以 使 用 Python 脚本 作为 combiner， 这 在 大 数据 
分 析 中 尤为 重要 。 只 需 使 用 -combiner 选项 即 可 指定 combiner。 一 种 方法 是 将 mapper 更 新 
为 流水 线 ， 使 用 相同 的 shell 脚本 、sort 和 reducer， 和 在 本 地 测试 脚本 一 样 。 不 过 ， 指 定 
另 一 个 Python 脚本 作为 combiner 通常 更 有 效 ， 因 为 大 多 数 combiner 都 与 reducer 完全 相同 
或 非常 相似 。 


3.2 ”Python 的 MapReduce 框 架 
Hadoop Streaming 稍微 高 级 一 点 的 用 法 是 利用 标准 错误 流 (stderr) 更 新 Hadoop 状态 以 


及 Hadoop 计数 器 。 这 种 技术 本 质 上 是 让 Streaming 作业 访问 Reporter 对 象 MapReduce 
Java API 的 一 部 分 ， 用 于 跟踪 作业 的 全 局 状态 。 通 过 将 特殊 格式 的 字符 串 写 入 stderr， 
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mapper 和 reducer 可 以 更 新 全 局 作业 状态 ， 以 报告 进度 并 表明 它们 是 活动 的 。 对 于 需要 大 
量 时 间 的 作业 (尤其 是 涉及 从 作业 的 pickle 文件 中 加 载 大 型 模型 的 任务 ) ， 确 保 框 架 不 会 
认为 任务 已 超时 至 关 重 要 。 


计数 器 在 整个 MapReduce 框架 或 应 用 程序 范围 内 进行 全 局 聚合 ， 以 键 值 对 的 形式 保存 数 
值 。 这 在 许多 任务 中 都 非常 有 用 ， 能 使 分 析 人 员 和 开发 人 员 了 解 系统 在 数据 分 析 期 间 发 生 
了 什么 。 计 数 器 可 以 通过 满足 结合 律 的 运算 来 累加 ， 这 本 质 上 就 增加 了 计数 器 的 值 。 虽 然 
Hadoop 实现 了 多 个 计数 器 ， 能 对 处 理 的 记录 和 字 市 数 进行 计数 ， 但 是 自 定 义 计数 器 能 更 
轻松 地 跟踪 作业 中 的 指标 数据 或 提供 副 计算 的 相关 渠道 。 

例如 ， 我 们 可 以 在 简单 的 WordCount 程序 中 实现 计数 器 ， 以 记录 全 局 单词 数 以 及 我 们 的 
词汇 量 〈 即 不 同 单词 的 个 数 ) ， 从 而 进行 最 终 计算 词汇 多 样 性 。 词 汇 多 样 性 是 单词 个 
数 与 词汇 量 的 比率 ， 表 示 单 个 单词 在 文本 中 的 平均 出 现 频率 。 这 类 指标 数据 对 于 理解 语 料 
库 的 变化 对 自然 语言 处 理应 用 程序 的 影响 至 关 重 要 。 副 计算 指标 数据 ， 也 就 是 这 里 的 计数 
器 ， 追 踪 Hadoop 作业 的 主体 ， 可 以 用 作 输 出 ， 但 不 影响 主要 的 计算 。 当 评估 跨 数据 集 的 
机 器 学 习 模 型 时 ， 也 可 以 用 它们 来 计算 均 方 误差 或 分 类 指标 。 

要 使 用 Reporter 的 Counter 和 Status 功能 的 话 ， 可 以 为 上 一 节 中 的 Mapper 和 Reducer 类 
添加 如 下 方法 : 


def status(self, message): 
sys.stderr.write("reporter:status:{}\n".format(message)) 

































































def counter(self, counter, amount=1, group="ApplicationCounter"): 
sys.stderr.write( 
"reporter:counter:{},{},{}\n".format(group, counter, amount) 


) 


counter 方法 允许 map 和 reduce 函数 更 新 任意 命名 计数 器 的 计数 。 根 据 需 要 ， 更 新 的 值 可 
为 任意 值 (默认 为 递增 1)。 可 以 将 计数 器 的 组 设置 为 任意 名 称 ， 通 常 默认 为 应 用 程序 的 名 
称 。 与 之 类 似 ，status 方法 允许 MapReduce 应 用 程序 向 框架 发 送 任意 消息 ， 并 使 它们 在 
日 志 或 Web 用 户 界面 中 可 见 。 


为 了 扩展 航班 平均 延误 应 用 程序 ， 让 它 提 供 准点 和 延迟 航班 的 计数 ， 并 在 开始 和 结束 时 发 
送 状态 更 新 ， 按 如 下 所 示 更 新 map 函数 : 


def map(self): 
seLf .status("mapping started") 
def map(self): 
for row in self: 
if row[6] < 0: 
seLf .counter("earLy departure") 
else: 
self.counter("late departure") 





self.emit(row[3], row[6]) 


seLf .status("mapping complete") 


仅仅 通过 添加 这 儿 行 ， 我们 就 能 更 好 地 了 解 平均 延误 程序 是 如 何 运 行 的 ， 而 不 需要 专门 编写 
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元 长 的 Hadoop 作业 计算 准点 和 晚点 航班 的 计数 。 我 们 可 能 会 想 在 reducer 中 计算 有 多 少 机 场 
有 航班 数据 。 因 为 reducer 将 看 到 数据 集中 的 每 个 机 场 ， 因 此 可 以 这 样 更 新 reduce 函数 : 
def reduce(self): 


for current，group in groupby(self, itemgetter(0)): 
seLf .status("reducing airport {}".format(current)) 





self.counter("airports") 
self.emit(current, float(total) / float(count)) 


随 着 分 析 应 用 程序 规模 的 增长 ， 这 些 能 实现 Hadoop Streaming 全 部 功能 的 技术 将 变 得 至 
关 重 要 。 再 以 自然 语言 处 理 为 例 ， 为 了 进行 词性 标注 或 命名 实体 识别 ， 应 用 程序 必须 将 
pickle 之 后 的 模型 加 载 到 内 存 中 。 此 过 程 可 能 持续 几 秒 钟 到 几 分 钟 使 用 状态 机 制 警 告 
框架 任务 仍 在 正常 运行 ， 可 以 确保 集群 不 会 因为 推测 执行 机 制 而 瘫痪 。 即 使 在 运行 其 他 作 
业 时 ， 计 数 器 也 能 帮助 应 用 程序 从 全 局 范围 分 析 大 型 数据 集 。 

既然 提 到 了 全 局 范围 ， 就 来 说 说 最 后 一 个 能 改进 由 Python 编写 的 Streaming 应 用 程序 的 工 
具 : 作业 配置 变量 (job configuration variable， 人 简称“JobConf 变量 ”)。Hadoop Streaming 
应 用 程序 自动 将 作业 的 配置 变量 添加 到 环境 中 ， 用 下 划 线 (_) 替换 圆 点 〈.) 来 重 命 名 配 
置 变量 。 例 如 ， 如 果 要 访问 作业 中 mapper 的 数量 ， 可 以 请 求 "mapred.map.tasks" 配置 变 
量 。 虽 然 这 个 示例 不 一 定 有 用 ， 但 用 户 定义 的 配置 值 可 以 使 用 圆 点 形式 的 -D 参数 提交 到 
Hadoop Streaming 中 ， 甚 中 可 包含 重要 信息 ， 如 共享 资源 的 URL。 要 在 Python 代码 中 访问 
作业 配置 变量 ， 可 添加 以 下 函数 : 


import os 
















































































def get_job_conf(name): 
name = name.replace(".", "_").upper() 
return os.environ.get(name) 


很 明显 ， 使 用 一 个 微型 、 可 重用 的 框架 对 Hadoop Streaming 的 Python 开发 大 有 帮助 。 该 
框架 应 该 有 一 个 用 于 处 理 mapper 和 reducer 的 Streaming 细节 的 基 类 ， 以 及 应 该 在 自 定义 
MapReduce Streaming 作业 中 扩展 的 抽象 基 类 Mapper 和 Reducer。 想 想 下 面 的 框架 : 


import os 
import sys 








from itertools import groupby 
from operator import itemgetter 


SEPARATOR = "\t" 


class Streaming(object): 


@staticmethod 

def get_ job_conf(name): 
name = Name.replace(".", "_").upper() 
return os.environ.get(name) 
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def _init (self, infile=sys.stdin, separator=SEPARATOR): 


self.infile = infile 
self.sep = separator 


def status(self, message): 


sys.stderr.write("reporter:status:{}\n".format(message)) 


def counter(self, counter, amount=1, group="Python Streaming"): 
msg = "reporter:counter:{},{},{}\n".format(group, counter, amount) 


sys.stderr.write(msg) 


def emit(self, key, value): 


sys.stdout.write("{}{}{}\n".format(key, self.sep, value)) 


def read(self): 
for line in self.infile: 
yield line.rstrip() 


def _ iter__(self): 
for line in self.read(): 
yield line 


class Mapper(Streaming): 


def map(self): 


raise NotImplementedError("Mappers must implement a map method") 


class Reducer(Streaming): 


def reduce(self): 


raise NotImplementedError("Reducers must implement a reduce method") 


def _ iter__(self): 


generator = (line.split(self.sep, 1) for line in self.read()) 


for item in groupby(generator, itemgetter(0)): 
yield item 


在 编写 传递 给 Hadoop Streaming 的 mapper 和 reducer 时 ， 只 需 在 Streaming 作业 中 引入 
这 个 文件 ， 并 从 该 框架 中 导入 合适 的 类 。 在 扩展 类 后 ， 只 需 在 代码 中 实现 map 函数 或 








reduce 函数 即 可 。 下 一 节 描 述 了 一 个 具体 的 示例 一 将 此 框架 与 
language toolkit，NLTK) 结合 使 用 ， 以 执行 更 精确 的 单词 计数 。 


3.2.1 短语 计数 
一 直 以 来 ，Hadoop 程序 的 “Hello, World” 都 是 单词 计数 程序 。 








自然 语言 工具 包 (natural 





使 用 Python 代码 对 文件 


执行 单词 计数 是 演示 分 布 式 计算 的 好 方法 ， 但 是 有 了 Hadoop Streaming 的 话 ， 就 可 以 简 





单 地 使 用 Linux 的 wc 命令 ， 因 为 这 条 命令 也 从 stdin 接收 输入 ， 





并 输出 到 stdout。 通 过 














使 用 mapper 和 reducer，Python 人 允许 我 们 使 用 多 个 reducer 任务 进行 数据 聚合 ， 将 处 理 极 
大 数据 集 的 工作 分 解 开 来 。 此 外 ， 单 词 计数 是 语言 处 理 所 用 的 统计 方法 的 基础 ， 我 们 可 
































以 使 用 Python 中 可 用 的 高 级 文本 处 理 技术 来 进行 更 高 级 的 词法 分 析 ， 例 如 使 用 词 形 还 原 
(lemmatization) 技术 进行 短语 计数 或 更 高 级 的 创建 索引 的 方法 。 
Hadoop Streaming 非常 适用 于 文本 处 理 ， 不 仅 因为 通过 它 能 访问 TextBlob 和 NLTK 等 
库 ， 还 因为 Hadoop Streaming 本 身 就 以 逐 行 方式 使 用 字符 串 序 列 。 默 认 情 况 下 ，Hadoop 
Streaming 期 望 通过 Streaming 作业 的 标准 输入 和 标准 输出 的 文本 是 由 制 表 符 分 隔 的 如 
果 你 还 能 将 数据 视 为 键 值 对 ， 那 当然 更 好 ， 不 过 也 不 是 必须 的 。 


NLTK 和 TextBlob 是 第 三 方 依赖 ， 这 意味 着 Python 默认 不 包含 它们 。 要 安 
装 这 些 包 ， 可 以 使 用 Python 包 管 理 器 ptp， 并 且 集 群 中 的 每 个 节点 都 必须 
安装 这 些 依赖 。 为 了 简化 问题 ， 假 定 所 有 额外 的 库 都 已 经 安装 在 集群 上 ， 不 
过 集群 管理 不 在 本 书 的 范围 之 内 。 如 果 你 使 用 的 是 伪 分 布 式 设置 ， 那 么 执行 
pip install nltk 应 该 就 能 完成 NLTK 的 安装 。 















































使 用 Python 微 框架 来 编写 一 个 稍 加 改进 的 MapReduce 应 用 程序 ， 执 行 单词 计数 。 首 先 ， 
将 单词 全 部 归 范 化 为 小 写字 母 ， 像 “Apple” 这 样 的 单词 将 与 “apple” 相 同 。 不 是 所 有 语 
言 处 理应 用 程序 都 可 以 这 么 做 一 一 英语 (和 许多 其 他 语言 ) 的 大 小 写 是 语法 的 重要 部 分 ， 
表明 句子 开始 或 专 有 名 称 (例如 Apple Paltrow 或 Apple, Inc.)。 然 而 ， 在 词汇 评估 中 采用 
规范 化 倒是 没什么 问题 ，Apple 在 句子 开头 还 是 作为 专 有 名 词 在 这 里 无 关 紧 要 。 


下 一 步 ， 从 单词 计数 中 去 掉 标 点 符号 和 停 用 词 。 停 用 词 是 语言 中 的 虚词 ， 例 如 冠 
词 (“a” 或 “an)、 限 定 词 (“the”“this”“my”)、 代 词 (“his”“they”) 和 介词 
(“over”“on”“for”)。 由 于 停 用 词 具 备 这 种 功能 性 用 法 ， 所 以 它们 的 出 现 非 常 频繁 ， 占 据 
了 语料库 的 一 大 部 分 。 据 说 ， 对 一 些 信息 检索 应 用 程序 来 说 ， 停 用 词 是 给 定 词汇 分 布 中 最 
常见 的 词 ， 所 以 被 自动 去 除 以 提高 应 用 程序 的 性 能 。 在 这 种 情况 下 ,，“want” 或 “has” 这 
样 的 普通 动词 可 能 会 被 排除 在 外 。 不 管 是 去 除 停 用 词 、 标 点 符号 ， 还 是 文本 的 标准 化 ， 都 
可 以 大 幅 降 低 词汇 密度 ， 对 了 解 特定 语料库 中 最 重要 的 单词 大 有 帮助 。 

最 后 ， 使 用 这 个 归 范 化 的 语料库 来 统计 短语 的 个 数 ， 也 就 是 经 常 一 起 出 现 的 单词 (例如 忽 
略 停 用 词 后 连续 两 次 一 起 出 现 )。 统 计 学 家 通过 短语 分 析 来 获取 通常 一 起 出 现 或 可 能 具有 
某 种 特殊 意义 的 词语 ， 例 如 “lawn chair” (草坪 躺椅 ) 或 “vetoed bil”( 否 决议 案 )。 短 语 
是 n-Gram 语言 模型 中 最 简单 的 形式 。n-Gram 是 一 种 模型 构建 技术 ， 可 以 预测 给 定 上 下 文 
的 下 一 个 单词 。 

使 用 之 前 的 框架 ，Mapper 完成 了 大 部 分 工作 : 


#!/usr/bin/env python 
































import sys 
import nltk 
import string 


from framework import Mapper 


class BigramMapper (Mapper): 
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def _init (self, infile=sys.stdin, separator='\t'): 
super(BigramMapper, self)._ iinit (infile, separator) 


seLf .stopwords = nltk.corpus.stopwords.words("english") 
self.punctuation = string.punctuation 


def exclude(self, token): 
return token in self.punctuation or token in self.stopwords 


def normalize(self, token): 
return token.Lower() 


def tokenize(self, value): 
for token in nltk.wordpunct_ tokenize(value): 
token = self.normalizeltoken) 
if not seLf.excLude(token) : 
yield token 


def map(self): 
for vaLue in self: 
for bigram in nltk.bigrams(self.tokenize(value)): 
self.counter("words") # 计算 短语 的 总 数 
self.emit(bigram, 1) 


if _ name _ == "__ main _": 
mapper = BigramMapper() 
mapper .map() 


map 方法 很 直观 。 它 循环 遍历 整个 输入 ， 并 使 用 nttk.wordpunct_tokenizer 对 值 进行 分 词 
(tokenize)， 值 是 数据 集 的 一 行文 本 。 这 个 分 词 器 确保 不 仅 单词 (包括 缩写 ) 会 被 拆 分 ， 标 
点 符号 也 会 被 拆 分 。 通 过 使 用 nltk 内 置 的 停 用 词语 料 库 ， 分 词 器 还 能 忽略 标点 符号 和 停 用 
词 。 请 注意 ， 使 用 自 定义 停 用 词 列 表 改 进 此 代码 并 不 难 ， 可 以 使 用 -file 参数 将 该 列表 与 
作业 一 起 打包 。 

为 了 执行 短语 计数 ， 需 要 发 射 键 为 令 牌 、 值 为 1 的 元 组 。 我 们 创建 了 一 个 简单 的 emit 帮助 
函数 ， 它 将 由 分 隔 符 字 符 串 分 隔 的 键 值 对 写 入 到 输出 (在 本 例 中 是 stdout)。 可 以 使 用 内 
置 的 nLtk.bigrams 国 数 收集 短语 。 

reducer 实现 了 一 个 非常 常见 的 MapReduce 模式 SumReducer。 这 类 reducer 的 使 用 频率 
非常 高 ， 你 甚至 都 想 把 它 当 作 一 个 标准 类 ， 与 IdentityMapper 和 其 他 标准 模式 (你 会 在 第 
5 章 见 到 这 些 模式 ) 一 道 添 加 到 微 框架 中 。SumReducer 的 代码 如 下 所 示 : 


#!/usr/bin/env python 
































from framework import Reducer 


class SumReducer(Reducer ) : 


def reduce(seLf) : 
for key, values in self: 
total = sum(int(count) for count in values) 





self.emit(key, total) 


if _ name == '_ main _': 


reducer = SumReducer() 
reducer .reduce() 


请 注意 ， 这 个 reducer 忽略 了 键 一 一 文本 字符 串 形式 的 短语 元 组 ， 因 为 reducer 只 计算 该 元 
组 的 出 现 次 数 。 然 而 ， 如 果 为 了 改变 键 空 间 (例如 基于 第 一 个 单词 过 滤 短 语 ) 而 需要 处 理 
这 个 复合 键 ， 或 者 因为 复合 键 在 链 式 MapReduce 作业 的 一 个 mapper 中 而 需要 处 理 这 个 复 
合 键 ， 可 以 使 用 Python 的 Literal_eval 将 字符 串 转换 为 元 组 : 


import ast 




















key = ast.LiteraL_evaL(key) 


使 用 与 之 前 示例 相同 的 命令 ， 通 过 Hadoop Streaming 将 此 作业 提交 到 集群 ， 但 要 确保 
framework.py 文件 也 被 打包 并 随 作业 一 起 发 送 。 作 业 提 交 命 令 如 下 所 示 ; 
$ hadoop jar SHADOOP_HOME/share/hadoop/tooLs/Lib/hadoop-streaming-*.jar \ 

-input corpus \ 

-output bigrams \ 

-mapper mapper.py \ 

-reducer reducer.py \ 

-file mapper.py \ 

-file reducer.py \ 

-file framework.py 


请 注意 ， 在 这 个 例子 中 ,假设 第 三 方 依赖 nltk 已 被 经 安装 在 集群 中 的 每 个 节点 上 一 一 如 有 果 
你 有 集群 的 管理 访问 权限 ， 或 者 能 从 特定 的 AMI 启动 集群 ， 就 可 以 做 到 。 否 则 ，nttk 需 
要 打包 成 ZIP 文件 ， 并 使 用 -file 参数 发 送 到 集群 。 


3.2.2 ”其 他 框架 


虽然 我 们 已 经 创建 了 一 个 可 以 编写 MapReduce 作业 的 小 框架 ， 但 还 有 其 他 一 些 框架 也 能 
让 你 使 用 Python 编写 MapReduce 作业 ， 这 点 十 分 重要 。 编 写本 书 时 ， 最 流行 的 两 个 框架 
是 Yelp 的 mrjob (http://bit.ly/1INqmsvA) 和 GitHub 上 的 dumbo (http://bit.ly/1UQx8G3)， 
它们 封装 了 Hadoop Streaming 并 添加 了 更 多 的 功能 。 其 他 框架 还 有 封装 了 Hadoop Pipes 
(Hadoop 的 C++ API) 的 pydoop (http://bit.ly/1LizcVD) 和 使 用 Cython 封装 了 Streaming 的 
hadoopy (http://bit.ly/1TQugX!])。 


这 些 框架 试图 帮助 Python 开发 人 员 编 写 Hadoop 作业 ， 但 是 却 造 成 了 性 能 损失 。 它 们 提 
供 了 更 简单 的 API、 编 程 接口 以 及 Python 中 的 标准 工具 ， 甚 至 还 提供 了 运行 和 局 动作 
业 的 方法 ， 让 开发 人 员 能 更 专注 于 Python 开发 而 不 是 Hadoop 集成 。 更 高 级 的 框架 有 
TypedBytes， 这 是 一 种 Hadoop 中 的 二 进 制 序列 化 格式 ， 支 持 将 Python 对 象 序列 化 为 输入 
和 输出 ， 能 显著 提高 这 些 框架 的 性 能 。 

mrjob 库 也 值得 关注 一 下 ， 因 为 Yelp 正在 积极 开发 它 ， 甚 平台 完全 在 Amazon Web Services 
生态 系统 内 。 因 此 ，mrjob 是 唯一 适合 通过 Python 的 boto 库 在 Amazon 的 Elastic MapReduce 


































































































Python 框架 和 Hadoop Streaming | 45 


框架 上 快速 部 署 和 运行 作业 的 库 。 使 用 mrjob 编写 的 作业 通常 是 包含 完整 MapReduce 代码 
的 单个 文件 ， 可 以 直接 在 本 地 文件 系统 、EMR 或 常规 的 Hadoop 集群 上 执行 。 此 外 ， 可 以 
通过 简单 的 配置 文件 配置 作业 。 


dumbo 库 是 最 早 的 Python Hadoop Streaming 框架 之 一 ， 虽 然 没 有 被 经 常 维护 ， 但 使 用 广 
泛 。Tom White 编写 的 《Hadoop 权威 指南 》 认 为 它 是 可 选 的 框架 。dumbo 框架 完全 封装 了 
Hadoop Streaming， 并 使 用 TypedBytes 来 提高 性 能 。 通 过 它 ， 可 以 高 效 地 编写 复杂 的 链 式 
MapReduce 作业 。 它 还 附带 用 于 管理 和 执行 作业 、 提 供与 HDFS 交互 的 命令 行 脚本 。 

最 后 ， 简 单 地 使 用 Hadoop Streaming 是 迄今 为 止 性 能 最 优 的 解决 方案 ， 因 为 它 不 依赖 于 第 
三 方 库 ， 而 且 足 够 轻巧 ， 可 以 部 署 在 各 种 分 析 场 景 中 。 本 书 中 的 MapReduce 示例 将 使 用 本 
章 描述 的 Streaming 机 制 。 对 于 更 大 、 更 复杂 的 分 析 ， 开 发 人 员 需 要 评估 这 些 框架 ， 使 其 
成 为 工作 流程 的 一 部 分 。 


3.3 MapReduce 进 阶 


这 一 节 将 介绍 一 些 与 MapReduce 紧密 相关 的 高 级 主题 ， 引 入 一 些 在 MapReduce 算法 和 优 
化 中 发 挥 重 要 作用 的 概念 ， 因 为 你 在 阅读 其 他 有 关 如 何 实现 不 同 分 析 的 资料 时 会 遇 到 这 些 
术语 。 这 里 不 会 介绍 如 何 使 用 这 些 工 具 ， 而 是 从 概念 层面 去 介绍 ， 以 便 在 你 对 MapReduce 
进行 深入 探索 时 ， 不 会 对 它们 感到 陌生 。 

这 些 工 具 很 难 在 没有 Java API 的 情况 下 实现 ， 因 此 不 适合 将 它们 放 入 介绍 Hadoop 
Streaming 的 章节 中 ， 但 是 在 讨论 MapReduce 时 对 它们 避 而 不 谈 又 实在 是 说 过 不 去 。 我 们 
将 在 后 文 讨论 combiner (主要 的 MapReduce 优化 技术 ) 、partitioner (确保 在 reduce 步骤 中 
不 出 现 上 瓶颈 的 技术 ) 和 作业 链 (用 于 组 合 更 大 的 算法 和 数据 流 的 技术 )。 























































































































3.3.1 combiner 


mapper 会 产生 大 量 的 中 间 数 据 ， 这 些 中 间 数 据 必 须 通 过 网 络 传输 ， 进 行 shuffle、sort 
和 reduce。 由 于 网 络 是 物理 资源， 大量 数据 的 传输 可 能 会 导致 作业 延迟 和 内 存 瓶 颈 ( 比 
如 reducer 要 保存 到 内 存 中 的 数据 太 多 )。combiner 是 解决 这 个 问题 的 主要 机 制 ， 而 且 它 
本 质 上 也 是 与 mapper 输出 相关 联 的 中 间 reducer。 在 将 数据 转发 到 合适 的 reducer 之 前 ， 
combiner 通过 执行 一 个 mapper 局 部 的 reduce 来 减少 网 络 流量 。 例 如 ， 两 个 mapper 和 一 个 
简单 的 求 和 reducer 产生 如 下 输出 。 


mapper 1 的 输出 : 


(IAD, 14.4), (SFO, 3.9), (JFK, 3.9), (IAD, 12.2), (JFK, 5.8) 


























mapper 2 的 输出 : 
(SFO, 4.7), (IAD, 2.3), (SFO, 4.4), (IAD, 1.2) 


求 和 reducer 的 目标 输出 : 


(IAD, 29.1), (JFK, 9.7), (SFO, 13.0) 


每 个 mapper 都 为 reducer 带 来 额外 的 工作 ， 即 每 个 mapper 都 会 产生 重复 的 键 。combiner 
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预先 计算 每 个 键 的 和 ， 减 少 生 成 的 键 值 对 的 数量 ， 从 而 减少 网 络 流量 。 此 外 ， 因 为 存在 较 
少 的 重复 键 ， 所 以 shuffle 操作 和 sort 操作 也 变 得 更 快 。 


只 要 运算 满足 交换 律 和 结合 律 ，combiner 和 reducer 就 是 相同 的 一 一 这 很 常见 ， 但 也 不 总 
是 这 样 。 只 要 combiner 的 输入 输出 数据 类 型 和 mapper 的 输出 数据 类 型 一 样 ， 则 combiner 
可 以 执行 任意 的 局 部 聚合 (partial reduction)。 因 此 ，combiner 的 运算 与 reducer 不同 
时 ， 算 法 常常 同时 使 用 mapper、reducer 和 combiner 实现 。 要 在 Hadoop Streaming 中 指定 
combiner， 可 以 使 用 -combiner 选项 ， 与 指定 mapper 和 reducer 类 似 : 


$ hadoop jar SHADOOP_HOME/share/hadoop/tooLs/Lib/hadoop-streaming-*.jar \ 
-input input_data \ 
-output output_data \ 
-mapper mapper.py \ 
-combiner combiner.py \ 
-reducer reducer.py \ 
-file mapper.py \ 
-file reducer.py \ 
-file combiner.py 


如 果 combiner 与 reducer 匹配 ， 则 只 需 将 reducer.py 文件 指定 为 combiner 即 可 ， 无 须 添加 
额外 的 combiner 文件 。 在 我 们 创建 的 微 框 架 中 ，combiner 类 会 简单 地 继承 Reducer。 




















3.3.2 partitioner 


partitioner 通过 划分 键 空间 来 控制 如 何 将 键 及 其 值 发 送 到 每 个 reducer， 上 默认 使 用 的 
HashPartitioner 通常 就 能 满足 需求 。 它 通过 计算 键 的 散 列 值 并 将 键 分 配给 由 reducer 数 
量 确定 的 键 空间 ， 来 将 键 均匀 地 分 配给 每 个 reducer。 给 定 均匀 分 布 的 键 空间 后 ， 每 个 
reducer 将 获得 相对 平均 的 工作 负载 。 


一 旦 键 的 分 布 不 平均 ， 比 如 大 量 的 值 与 一 个 键 相关 联 ， 其 他 键 几 乎 没有 关联 的 值 ， 问 题 
就 出 现 了 。 在 这 种 情况 下 ， 大 部 分 reducer 的 工作 量 不 饱满 ， 并 行 reduce 的 大 多 数 好 处 也 
就 无 从 体现 。 一 个 自 定义 的 partitioner 可 以 根据 散 列 之 外 的 其 他 语义 结构 (通常 是 特定 于 
领域 的 ) 划分 键 空间 ， 从 而 缓解 这 个 问题 。 某 些 类 型 的 MapReduce 算法 也 可 能 需要 自 定 
义 partitioner， 最 典型 的 就 是 实现 左 外 连接 。 最 后 ， 因 为 每 个 reducer 都 将 输出 写 入 自己 的 
part-* 文件 ， 使 用 自 定义 partitioner 还 能 支持 更 清晰 的 数据 组 织 ， 让 你 根据 分 区 条 件 将 分 段 
输出 写 入 每 个 文件 ， 例 如 写 入 按 年 输出 数据 。 

不 幸 的 是 ， 只 能 使 用 Java API 创建 自 定义 partitioner。 不 过 Hadoop Streaming 用 户 仍 然 
可 以 从 Hadoop 库 中 指定 partitioner Java 类 ， 或 者 编写 自己 的 Java partitioner 并 将 其 与 
Streaming 作业 一 起 提交 。 


3.3.3 ”作业 链 


大 多 数 复杂 的 算法 不 能 使 用 简单 的 nap 和 reduce 描述 。 因 此 ， 为 了 实现 更 复杂 的 分 析 ， 需 
要 一 种 被 称 为 作业 链 的 技术 。 如 有 果 可 以 将 复杂 的 算法 分 解 成 几 个 较 小 的 MapReduce 任务 ， 
那么 将 这 些 任务 链接 在 一 起 就 可 以 产生 完整 的 输出 。 考 虑 计算 数据 集中 变量 对 的 Pearson 
相关 系数 。 要 得 到 Pearson 相关 系数 ， 需 要 计算 每 个 变量 的 平均 值 和 标准 差 。 采 用 单个 
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MapReduce 无 法 轻松 实现 这 个 目标 ， 所 以 可 以 采用 以 下 策略 。 


(1) 计算 每 一 个 (X, 7 的 平均 值 和 标准 差 。 
(2) 使 用 第 一 个 作业 的 输出 来 计算 协 方差 和 Pearson 相关 系数 。 


平均 值 和 标准 差 可 以 在 初始 作业 中 计算 : 在 mapper 中 计算 总 个 数 、 和 以 及 平方 和 ， 然 后 
在 reducer 中 计算 平均 值 和 标准 差 。 第 二 个 作业 取 第 一 个 作业 输出 的 平均 值 和 标准 差 ， 在 
mapper 中 将 各 个 值 和 平均 值 的 差 值 相 乘 来 计算 协 方差 ， 然 后 通过 适当 求 和 和 取 平 方 根 来 计 
算出 该 相关 系数 。 如 图 3-2 所 示 ， 第 二 个 作业 依赖 于 第 一 个 作业 。 



























































3-2: 线性 作业 链 将 一 个 或 多 个 MapReduce 作业 的 输出 作为 输入 发 送 到 另 一 个 作业 来 产生 完整 的 
计算 


因此 ， 作 业 链 是 许多 小 作业 的 组 合 ， 通 过 将 一 个 或 多 个 作业 的 输出 发 送 给 另 一 个 作业 作为 
输入 ， 从 而 实现 完整 的 计算 。 为 了 实现 这 样 的 算法 ， 开 发 人 员 必 须 考虑 每 一 步 计算 怎 样 
reduce 出 中 间 值 不 仅仅 是 mapper 和 reducer 之 间 的 中 间 值 ， 还 包括 作业 之 间 的 中 间 值 。 
如 图 3-2 所 示 ， 许 多 作业 都 被 认为 是 线性 作业 链 。 线 性 依赖 性 意味 着 每 个 MapReduce 作业 
仅 依 赖 于 前 一 个 作业 。 然 而 ， 这 是 一 种 简化 的 作业 链 形式 ， 更 普遍 的 作业 链表 示 为 作业 依 
赖 于 一 个 或 多 个 先前 作业 的 数据 流 。 可 以 用 有 向 无 环 图 (directed acyclic graph,，DAG) 来 
表述 复杂 作业 ， 它 描述 数据 如 何 从 输入 源 通 过 每 个 作业 (有 向 部 分 ) 流向 下 一 个 作业 (从 
不 重复 步 台 ， 无 环 部 分 )， 最 后 作为 最 终 输 出 (如 图 3-3 所 示 ) 。 



























































3-3: 数据 流 作业 链 是 线性 作业 链 的 扩展 
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仅 有 map 的 作业 

在 考虑 作业 链 和 作业 依赖 时 ， 注 意 可 能 会 有 仅 有 map 的 作业 。 仅 有 map 的 
作业 分 两 种 : 不 需要 聚合 的 作业 ， 以 及 积极 避免 shuffle 阶段 和 sort 阶段 的 作 
业 一 一 要 么 为 了 保持 数据 的 顺序 ， 要 么 为 了 优化 作业 的 执行 。 

要 执行 仅 有 map 的 作业 ， 只 需 将 reducer 的 数目 设置 为 0 即 可 。 有 了 Hadoop 
Streaming， 就 可 以 使 用 -numReduceTasks 标志 指定 reducer 的 数目 。 通 过 使 
用 identity mapper， 也 可 以 实现 仅 有 reduce 的 作业 ， 第 $ 章 会 讨论 这 个 问题 。 
“ 仅 有 map” 的 作业 可 以 使 用 identity reducer 实现 排序 。 
































为 了 计算 Pearson 相关 系数 并 说 明 作 业 链 ， 我 们 将 使 用 由 维基 百科 给 出 的 公式 计算 样本 中 
的 Pearson 相关 系数 。 输 入 的 数据 是 键 值 对 ， 其 中 键 是 因 变 量 y， 值 是 因 变 量 的 向 量 ， 要 求 
变量 x 与 y 的 相关 性 。 


等 式 3-1 计算 样本 的 Pearson 相关 系数 的 公式 
Di 0,— 
r= r= 
,本 
第 一 个 MapReduce 作业 将 计算 n 以 及 x 和 yy 的 平均 值 ， 如 下 所 示 : 


class VariablepairsMapper (Mapper): 

















def map(seLf) : 
# 计算 (x，y) 的 个 数 及 和 
# 输出 键 是 x 在 vector 中 的 索引 
for y, vector in self: 
for x, i in enumerate(vector): 
self.emit(i, (1, x, y) ) 





class PairsMeanReducer (Reducer): 


def reduce(self): 
for key, values in self: 
# 将 所 有 的 值 加 载 到 内 存 ,这 样 可 以 迭代 两 次 


values = list(values) 


# 计算 (x，y) 的 和 及 元 素 的 个 数 
sx, sy, sn = 0 
for (n, x, y) in values: 

sn += n 

SX += X 

Sy += y 


# 计算 x 和 y 的 平均 值 
xbar = sx/n 
ybar = sy / n 





# 发 射 每 一 个 (Xx，y) 及 x 和 y 的 平均 值 
for (n, x, y) in values: 
self.emit(key, (x, y, xbar, ybar)) 
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有 了 


平均 值 之 后 ， 就 可 以 计算 协 方差 和 标准 差 ， 以 便 在 第 二 个 作业 中 计算 Pearson 相关 系 
数 。 为 此 ， 需 要 再 次 传人 相同 的 输入 数据 ， 并 将 第 一 个 作业 的 输出 作为 该 作业 的 输入 。 为 
了 简化 以 说 明 问 题 ， 将 每 个 (x, y) 及 其 相关 联 的 均值 作为 第 一 个 作业 的 输出 : 


import math 


class PearsonMapper(Mapper ) : 


def map(self): 








# 计算 x 和 xbar 的 差 及 y 和 ybar 的 差 


# 发 射 差 的 乘积 





其 平方 





for i, (x, y, xbar, os in self: 
xdiff = x-xbar 
ydiff = y-ybar 
self.emit(i, (xdiff*ydiff, xdiff**2, ydiff**2)) 


class PearsonReducer(Reducer ) : 


def reduce(seLf) : 


for key, values in self: 


# 站 


sxyd = 
sxd2 = 
syd2 = 0 


for (xyd, x2d, y2d) in vaLues: 
sxyd += xyd 
sxd2 += x2d 
syd2 += y2d 


# 发 射 相 关系 数 
r = sxyd / (math.sqrt(sxd2) * math.sqrt(xyd2)) 


self.emit(key, r) 


虽然 这 不 是 实现 并 行 计算 Pearson 相关 系数 的 最 有 效 方法 ， 但 它 展 示 了 一 个 清晰 的 作业 


链 。 


首先 要 考虑 的 问题 是 ， 如 何 输 昌 





出 作业 1 的 数据 ， 才 能 让 作业 2 运行 。 第 5 章 将 从 这 


个 简单 的 引子 深入 到 更 复杂 的 主题 ， 探 索 pair 和 stripe， 让 这 样 的 复杂 计算 变 得 更 可 行 。 
虽然 可 以 人 工 设 置 作业 链 (在 命令 行 上 先 执行 第 一 个 作业 ， 然 后 执行 第 二 个 作业 )， 但 这 





不 是 

















最 理想 的 办 法 。 在 第 8 章 中 ， 我 们 将 探讨 数据 流 ， 以 及 如 何 使 用 高 级 工具 将 作业 链接 
起 来 。 


3.4 ”小结 


Hadoop Streaming 是 重要 的 工具 ， 让 使 用 了 R 或 Python (而 不 是 Java) 编程 的 数据 科学 家 能 
够 立即 开始 使 用 Hadoop， 特 别 是 MapReduce。 长 久 以 来 ， 如 果 你 想 使 用 Python 处 理 大 数 
据 ， 除 了 Hadoop Streaming 别 无 他 法 。 但 对 于 更 复杂 的 作业 或 算法 ， 特 别 是 那些 需要 使 用 
combiner 或 partitioner 进行 优化 的 作业 ， 就 需要 使 用 Java API 了 。 














然而 此 时 ， 事 情 出 现 了 转机 ， 特 别 是 对 Python 开发 人 员 来 说 。 下 一 章 将 讨论 Spark 
一 个 与 众 不 同 的 Hadoop 计算 框架 ， 附 带 了 原生 的 Python API (很 快 就 会 有 R API) 。Spark 
正 迅 速成 为 数据 科学 平台 的 首选 ， 很 大 一 部 分 是 因为 DataFrame 和 大 量 分 析 包 等 工具 正在 
Spark 上 构建 。 


但 是 ，MapReduce 和 Hadoop Streaming 没有 完全 被 Spark 包含 。 实 际 上 ， 如 果 仅 仅 就 内 
置 的 shuffle 和 sort 而 言 ， 其 实 更 适合 用 MapReduce 处 理 批 处 理 作 业 ， 特 别 是 那些 经 常 
运行 的 作业 (例如 ETL 操作 或 其 他 数据 整理 和 清理 过 程 )。 此 外 ，MapReduce 和 Hadoop 
Streaming 经 过 精心 构建 与 层 层 测试 ， 可 以 为 任务 关键 型 应 用 程序 所 信任 。 事 实 上 ， 因 为 编 
程 模型 间 太 过 相似 ， 现 在 大 多 数 的 大 数据 会 同时 使 用 MapReduce 和 Spark， 二 者 都 能 很 好 
地 满足 其 特定 类 型 的 应 用 程序 。 
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在 过 去 十 年 中 ，HDFS 和 MapReduce 一 直 是 大 规模 机 器 学 习 、 大 规模 分 析 和 大 数据 设备 的 
基石 和 驱动 力 。 与 大 多 数 平台 技术 一 样 ，Hadoop 的 成 熟 已 经 带 来 了 一 个 稳定 且 通 用 的 计 
算 环境 ， 足以 为 图 形 处 理 、 微 批 处 理 、SQL 查询 、 数 据 仓 储 和 机 器 学 习 等 任务 构建 专用 工 
有 具 。 然 而 ，Hadoop 越 普 及 ， 越 要 求 它 具备 能 应 对 更 广泛 的 新 场景 的 专业 化 能 力 。 并 且 我 
们 越发 觉得 MapReduce 的 批 处 理 模型 不 太 适 合 常见 的 工作 流 ， 包 括 针 对 单个 数据 集 的 达 
代 、 交 互 和 按 需 计算 。 


主要 的 MapReduce 抽象 (将 计算 规定 为 map 和 reduce) 是 并 行 的 ， 它 易于 理解 ， 并 且 
隐藏 了 分 布 式 计算 的 细节 ， 从 而 保证 Hadoop 的 正确 性 。 然 而 ， 为 了 实现 协调 性 和 容错 
性 ，MapReduce 模型 使 用 拉 执 行 模型 ， 需 要 将 中 间 数 据 写 回 HDFS。 不 幸 的 是 ， 将 数据 从 
其 存储 位 置 移 动 到 计算 位 置 所 需要 的 IO 在 任何 计算 系统 中 都 是 最 大 的 时 间 成 本 。 因 此 ， 
MapReduce 在 具有 极 高 的 安全 性 和 弹性 的 同时 ， 运 行 任务 的 速度 也 不 可 避免 会 慢 一 些 。 更 
糟 的 是 ， 几 乎 所 有 应 用 程序 都 必须 在 多 个 步骤 中 将 多 个 MapReduce 作业 链接 在 一 起 ， 从 而 
创建 面向 最 终 所 需 结果 的 数据 流 。 这 导致 不 为 用 户 所 需 的 大 量 中 间 数 据 被 写 入 HDFS， 从 
而 产生 额外 的 磁盘 开销 。 

为 了 解决 这 些 问 题 ，Hadoop 采用 了 更 通用 的 资源 管理 框架 进行 计算 ， 这 便 是 YARN。 以 
前 ，MapReduce 应 用 程序 分 配给 作业 的 资源 (处 理 器 和 内 存 ) 只 能 被 mapper 和 reducer 使 
用 ， 而 YARN 为 Hadoop 应 用 程序 提供 了 更 通用 的 资源 访问 。 因 此 ， 专 用 工具 不 再 需要 分 
解 为 一 系列 MapReduce 作业 ， 可 以 变 得 更 复杂 。 通 过 泛 化 集群 管理 ， 可 以 扩展 最 初 设想 的 
MapReduce 编程 模型 ， 以 包括 新 的 抽象 和 操作 。 

Spark 是 应 运 而 生 的 第 一 个 快速 、 通 用 的 分 布 式 计 算 范 式 ， 并 且 因 其 速度 和 适应 性 而 迅速 
得 到 了 普及 。Spark 主要 通过 名 为 弹性 分 布 式 数据 集 (resilient distributed dataset，RDD) 
的 新 数据 模型 实现 高 速 运行 。 该 数据 模型 在 计算 时 存储 在 内 存 中 ， 从 而 避免 了 昂贵 的 中 间 
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人 磁盘 写 操作 。 它 还 利用 了 DAG 执行 引 敬 优化 计算 ， 特别 是 迭代 计算 ， 这 对 于 优化 算法 和 
机 器 学 习 等 数据 理论 任务 来 说 至 关 重 要 。 在 速度 方面 的 优势 使 得 Spark 能 以 交互 方式 进行 
访问 (就 像 访 问 Python 解释 器 一 样 )， 使 用 户 成 为 计算 任务 的 一 部 分 ， 并 支持 以 前 不 可 能 
实现 的 大 数据 集 探索 ， 让 数据 科学 家 能 更 轻松 地 使 用 集群 。 


因为 有 向 无 环 图 通常 用 于 描述 数据 流 中 的 步 又， 所 以 在 讨论 大 数据 处 理 时 经 
常会 使 用 DAG 这 一 术语 。DAG 有 向 ， 是 因为 一 个 或 多 个 步骤 接着 前 一 个 步 
又 ， 无 环 ， 是 因为 单个 步骤 不 重复 。 当 数据 流 被 描述 为 DAG 时 ， 它 消除 了 
大 代价 的 同步 ， 并且 使 得 并 行 应 用 程序 更 容易 构建 。 


本 章 将 介绍 Spark 和 RDD， 也 是 讲解 使 用 Hadoop 进行 分 析 的 基础 知识 的 最 后 一 章 。 因 
为 Spark 实现 了 数据 科学 家 熟悉 的 许多 应 用 程序 (例如 DataFrame、 交 互 式 notebook 和 
SQL)， 所 以 建议 Hadoop 新 手 用 户 首选 Spark 与 集群 交互 ， 至 少 初期 要 这 样 做 。 为 此 ， 我 
们 将 描述 RDD， 通 过 pyspark 探索 如 何在 命令 行 中 使 用 Spark， 然 后 演示 如 何 使 用 Python 
写 Spark 应 用 程序 ， 并 将 它们 作为 Spark 作业 提交 到 集群 中 。 


4.1 _ Spark 基础 


Apache Spark 是 一 个 集群 计算 平台 ， 为 类 似 于 MapReduce 模型 的 分 布 式 编程 提供 了 一 个 
API， 但 被 设计 用 于 快速 的 交互 式 查询 和 迭代 算法 。 ' 它 主要 通过 在 集群 节点 的 内 存 中 缓存 
计算 所 需 的 数据 来 实现 高 速 运行 。 在 内 存 中 进行 集群 计算 使 Spark 可 以 运行 旭 代 算法 ， 因 
为 程序 可 以 为 数据 创建 检查 点 并 引用 回 它 ， 避 免 从 磁盘 重新 加 载 。 此 外 ， 它 支持 极 快速 的 
交互 式 查 询 和 流 式 数据 分 析 。 因 为 Spark 与 YARN 兼容 ， 所 以 它 可 以 在 现 有 的 Hadoop 集 
群 上 运行 并 访问 任何 Hadoop 数据 源 ， 包 括 HDFS、S3、HBase 和 Cassandra。 


还 有 一 点 很 重要 ，Spark 的 设计 从 根本 上 支持 大 数据 应 用 程序 和 数据 科学 任务 。Spark API 
不 仅 支持 map 和 reduce， 还 提供 了 许多 强大 的 分 布 式 抽象 。 这 些 抽 象 同样 与 函数 式 编 程 相 
关 ， 包 括 sample、filter、join 和 collect 等 。 此 外 ， 虽 然 Spark 是 用 Scala 实现 的 ， 但 
是 Scala、Java、R 和 Python 的 编程 API 使 得 许多 数据 科学 家 能 更 轻松 地 使 用 Spark， 并 能 
够 快速 且 充 分 地 利用 Spark 引擎 。 


为 了 理解 这 种 转变 ， 先 来 看 看 MapReduce 在 迭代 算法 方面 的 局 限 性 。 和 迭代 算法 对 数据 块 
多 次 应 用 相同 的 运算 ， 直 到 得 到 预期 的 结果 。 例 如 ， 像 梯度 下 降 这 样 的 优化 算法 是 迭代 
的 一 一 给 定 某 个 目标 函数 (如 线性 模型 )， 目 标 是 优化 该 函数 的 参数 ， 最 小 化 误差 (模型 
的 预测 值 和 数据 的 实际 值 之 间 的 差 )。 算 法 将 拥有 一 组 参数 的 目标 函数 应 用 于 整个 数据 集 
并 计算 误差 ， 再 根据 计算 得 到 的 误差 〈 沿 误差 曲线 下 降 ) 略微 修改 函数 的 参数 。 重 复 该 过 
程 ( 即 迭代 )， 直 到 误差 小 于 茶 个 国 值 或 者 直到 达到 最 大 迭代 次 数 。 

这 种 基本 技术 是 许多 机 器 学 习 算 法 (特别 是 有 监督 学 习 ) 的 基础 。 在 有 监督 学 习 中 ， 正 确 
答案 是 提前 已 知 的 ， 可 以 用 它 来 优化 决策 空间 。 为 了 使 用 MapReduce 编程 实现 这 种 类 型 的 
算法 ， 目 标 函 数 的 参数 必须 映射 到 数据 集中 的 每 个 实例 ， 并 计算 和 规约 误差 。 在 reduce 阶 
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注 1: 《Spark 快速 大 数据 分 析 》，Holden Karau、Andy Konwinski、Patrick Wendell、Matei Zaharia 车。 本 书 
已 由 人 民 邮 电 出 版 社 出 版 ，http://www.ituring.com.cn/book/1558。 
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段 结束 之 后 ， 参 数 将 被 更 新 并 馈送 到 下 一 个 MapReduce 作业 。 可 以 将 误差 计算 和 作业 更 新 
链接 在 一 起 来 实现 这 一 步 。 然 而 ， 每 个 作业 都 必须 从 磁盘 读 取 数 据 ， 并 将 误差 写 回 磁盘 ， 
这 将 导致 明显 的 IO 延迟。 

相反 ，Spark 在 应 用 程序 运行 期 间 将 尽 可 能 多 的 数据 集 保 存在 内 存 中 ， 从 而 防止 在 迭代 之 
间 重 新 加 载 数据 。 因 此 ，Spark 程序 员 不 是 简单 地 指定 map 步骤 和 reduce 步 又， 而 是 在 执 
行 某 个 需要 协调 的 动作 (如 规约 或 写 入 磁盘 ) 之 前 ， 指 定 一 系列 将 应 用 于 输入 数据 的 数据 
流转 换 。 因 为 数据 流 可 以 通过 DAG 来 描述 ， 所 以 Spark 的 执行 引擎 提前 知道 了 如 何在 集 
群 上 分 发 计算 并 管理 计算 的 细节 ， 这 与 MapReduce 抽象 分 布 式 计算 的 方式 相似 。 


通过 结合 无 环 数据 流 和 内 存 计算 ，Spark 能 达到 非常 快 的 速度 ， 特 别 是 当 集群 大 到 足以 容 
纳 内 存 中 所 有 数据 时 。 事 实 上 ， 通 过 增加 集群 的 大 小 ， 使 内 存 可 以 容纳 整个 非常 大 的 数据 
集 ，Spark 可 以 支持 交互 式 使 用 一 一 使 用 户 成 为 正在 集群 上 运行 的 分 析 进 程 的 关键 参与 者 。 
随 着 Spark 的 发 展 ， 用 户 交互 的 概念 成 为 其 分 布 式 计 算 模型 的 基础 。 事 实 上 ， 很 可 能 就 是 
因为 这 个 原因 ，Spark 才 支 持 这 么 多 语言 。 

Spark 的 通用 性 也 意味 着 可 以 用 它 构 建 更 高 级 的 工具 ， 用 于 实现 类 SQL 的 计算 、 图 形 处 理 
和 机 器 学 习 算 法 ， 乃 至 交互 式 notebook 和 数据 框 一 一 这 些 都 是 为 数据 科学 家 所 熟知 的 工 
具 ， 但 是 是 在 集群 环境 中 实现 的 。 在 介绍 Spark 如 何 实现 通用 分 布 式 计算 的 细节 之 前 ， 先 
来 了 解 一 下 它 有 哪些 工具 。 


4.1.1 Spark 栈 


Spark 是 一 种 通用 的 分 布 式 计 算 抽象 ， 可 以 在 独立 模式 下 运行 。 但 是 Spark 只 专注 于 计算 而 
不 关心 数据 存储 ， 因 此 通常 在 实现 了 数据 仓储 和 集群 管理 工具 的 集群 中 运行 。 本 书 主要 关 
注 Hadoop (尽管 也 有 Apache Mesos 和 Amazon EC2 上 的 Spark 发 行 版 )。 当 使 用 Hadoop 
构建 Spark 时 ， 它 使 用 YARN 通过 ResourceManager 来 分 配 和 管理 集群 资源 ， 如 处 理 器 和 
内 存 。 正 因 如 此 ，Spark 可 以 访问 所 有 Hadoop 数据 源 ， 例 如 HDFS、HBase、Hive， 等 等 。 

Spark 通过 Spark Core 模块 将 其 主要 的 编程 抽象 暴露 给 开发 人 员 。 此 模块 包含 基本 功能 和 
常规 功能 ， 包 括 定 义 RDD 的 API。 我 们 将 在 下 一 节 中 更 详细 地 介绍 RDD， 它 是 所 有 Spark 
计算 的 基本 功能 。Spark 构建 于 这 个 核心 之 上 ， 为 各 种 数据 科学 任务 实现 与 Hadoop 交互 的 
专用 库 ， 如 图 4-1 所 示 。 


SparkSQL& | ] ] Spark ] 
DataFrames sls Eaphe. Streaming 


i Mesos | Standalone 
四 (Cassandra HBase 93 


图 4-1: Spark 是 一 个 计算 框架 ， 旨 在 利用 集群 管理 平台 (如 YARN) 和 分 布 式 数据 存储 (如 HDFS) 

























































































邮 


因为 组 件 库 未 集成 到 通用 计算 框架 中 ， 所 以 Spark Core 模块 非常 灵活 ， 人 允许 开发 人 员 以 不 
同 的 方法 轻松 解决 类 似 的 用 例 。 例 如 ， 将 Hive 迁移 到 Spark 可 以 为 现 有 用 户 提 供 一 条 简单 
的 迁移 路 径 ，GraphX 基于 以 顶点 为 核心 的 图 计算 模型 Pregel， 但 其 他 利用 gather、apply、 
scatter (GAS) 风格 计算 的 图 形 库 可 以 很 轻松 地 用 RDD 实现 。 这 种 灵活 性 意味 着 Spark 不 
仅 可 以 用 来 开发 专业 工具 ， 同 时 也 可 以 帮助 新 用 户 快速 上 手 已 经 存在 的 Spark 组 件 。 
Spark 主要 包含 如 下 组 件 。 
Spark SQL 
起 初 用 于 与 Spark 进行 交互 的 API， 通 过 HiveQL (SQL 的 Apache Hive 变 体 ) 实现 ， 
你 现在 也 仍然 可 以 通过 这 个 库 直 接 访问 Hive。 不 过 这 个 库 也 在 不 断 升级 ， 提 供 更 常规 、 
更 结构 化 的 数据 处 理 抽象 一 一 DataFrame。DataFrame 本 质 上 是 组 织 成 列 数据 的 分 布 式 
集合 ， 概 念 上 类 似 于 关系 数据 库 中 的 表 。 
Spark Streaming 
对 无 界 数据 流 实现 实时 处 理 和 操作 。 虽 然 有 许多 用 于 处 理 实时 数据 的 库 (例如 Apache 
Storm) ， 但 是 Spark Streaming 使 程序 能 够 像 处 理 一 般 的 RDD 一 样 处 理 实时 数据 。 
MLlib 
一 个 常用 的 机 器 学 习 算 法 库 ， 使 用 RDD 上 的 Spark 操作 实现 。 该 库 包 含 可 扩展 的 学 习 
算法 〈 例 如 分 类 、 回 归 等 )， 这 些 算法 需要 进行 大 型 数据 集 的 迭代 运算 。 以 前 人 们 选择 
使 用 的 大 数据 机 器 学 习 库 是 Mahout 库 ， 以 后 将 转 而 使 用 Spark。 
GraphX 
算法 和 工具 集合 ， 用 于 操作 图 形 、 执 行 并 行 图 形 的 操作 和 计算 。GraphX 扩展 了 RDD 
API， 赛 括 了 操作 图 形 、 创 建 子 图 和 访问 路 径 中 所 有 顶点 的 操作 。 
这 些 组 件 与 Spark 编程 模型 结合 ， 提 供 了 大 量 与 集群 资源 交互 的 方法 。 很 可 能 就 是 因为 这 
种 完整 性 ，Spark 才 在 分 布 式 分 析 中 如 此 流行 。 不 需要 学 习 多 个 工具 ， 基 本 的 API 在 组 件 
中 保持 不 变 ， 而且 组 件 无 须 额外 安装 便 可 轻松 访问 。 这 种 丰富 性 和 一 致 性 源 于 Spark 中 的 
主要 编程 抽象 ， 即 弹性 分 布 式 数据 集 (RDD)， 到 目前 为 止 它 已 被 多 次 提 及 ， 下 一 节 将 对 
它 进 行 更 详细 的 探讨 。 

















































































































4.1.2 RDD 


在 第 2 章 中 ， 我 们 将 Hadoop 描述 为 一 个 分 布 式 计算 框架 ， 涉 及 两 个 主要 问题 : 如 何在 集 
群 中 分 发 数据 ， 以 及 如 何 分 发 计算 。 分 布 式 数 据 存 储 问题 涉及 数据 的 高 可 用 性 〈 将 数据 放 
在 它 被 处 理 的 地 方 )、 可 恢复 性 和 持久 性 。 分 布 式 计算 意 在 通过 将 大 型 计算 或 任务 分 解 成 
更 小 的 独立 计算 来 提高 计算 的 性 能 (速度)， 这 些 计 算 可 以 同时 (并行) 运行 ， 然 后 聚合 
得 到 最 终结 果 。 因 为 每 个 并 行 计算 在 集群 中 单独 的 节点 或 计算 机 上 运行 ， 所 以 分 布 式 计算 
框架 需要 为 整个 计算 提供 一 致 性 、 正 确 性 和 容错 保证 。Spark 不 处 理 分 布 式 数据 存储 ， 而 
是 依靠 Hadoop 提供 此 功能 ， 因 此 通过 一 个 被 称 为 弹性 分 布 式 数 据 集 的 框架 专注 于 提供 可 
靠 的 分 布 式 计算 。 


RDD 本 质 上 是 一 种 编程 抽象 ， 表 示 跨 机 器 分 区 的 对 象 的 只 读 集合 。RDD 可 以 根据 转换 过 
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程 (lineage) 重建 (因此 是 容错 的 )， 通 过 并 行 操作 访问 ， 从 分 布 式 存储 (例如 HDFS 或 
S3) 读 取 和 写 人 ， 以 及 高 速 缓存 在 worker 市 点 的 内 存 中 以 快速 重用 一 一 这 一 点 最 为 重要 。 
如 前 所 述 ， 这 种 内 存 缓存 功能 使 速度 大 幅 提 高 ， 并 提供 了 机 器 学 习 所 需 的 迭代 计算 以 及 以 
用 户 为 中 心 的 交互 式 分 析 。 

RDD 使 用 函数 式 编程 结构 体 进行 操作 ， 函 数 式 编程 结构 体 包括 map 和 reduce， 并 在 其 基 
础 上 进行 扩展 。 程 序 员 通过 从 输入 源 加 载 数据 ， 或 转换 现 有 集合 来 创建 新 的 RDD。RDD 
转换 过 程 (lineage) 主要 由 应 用 于 RDD 转换 的 历史 定义 ， 并 且 因 为 RDD 的 对 象 集合 是 不 
可 变 的 〈 不 能 直接 修改 ) ， 所 以 转换 可 以 重新 应 用 于 部 分 或 整个 集合 ， 以 便 从 故障 中 恢复 。 
因此 ，Spark API 本 质 上 是 创建 、 转 换 和 导出 RDD 操作 的 集合 。 


Spark 中 的 故障 恢复 与 MapReduce 的 区 别 很 大 。 在 MapReduce 中 ， 数 据 在 
每 个 临时 处 理 步骤 之 间 是 作为 sequence 文件 (保存 带 类 型 的 键 值 对 的 二 进 
制 平 面 文件 ) 写 入 磁盘 的 。 因 此 ， 进 程 在 map、shuffle 和 sort、reduce 之 间 
拉 取 数据 。 如 果 一 个 进程 失败 ， 那 么 另 一 个 进程 就 开始 拉 取 数据 。 在 Spark 
中 ， 对 象 集合 存储 在 内 存 中 。 通 过 保留 RDD 部 分 的 早期 检查 点 或 缓存 版 本 ， 
RDD 转换 过 程 (lineage) 可 用 于 重建 部 分 或 全 部 集合 。 





















































因此 ， 基 本 编程 模型 描述 了 如 何 通 过 编程 操作 创建 和 修改 RDD。 有 两 种 类 型 的 操作 可 以 应 
用 于 RDD, 分 别 是 转换 和 动作 。 将 转换 操作 应 用 于 现 有 RDD 可 以 创建 新 的 RDD， 例 如 对 
RDD 应 用 过 滤 操 作 可 以 生成 包含 过 滤 出 来 的 值 的 较 小 RDD。 然 而 ， 动 作 才 会 真正 将 结果 
返回 给 Spark 驱动 程序 ， 协 调 或 聚合 RDD 中 的 所 有 分 区 。 在 这 个 模型 中 ，map 是 一 种 转换 
操作 ， 因 为 一 个 函数 被 传递 给 存储 在 RDD 中 的 每 个 对 象 ， 并 且 该 函数 的 输出 映射 到 一 个 
新 的 RDD; 而 像 reduce 这 样 的 聚合 是 一 个 动作 操作 ， 因 为 reduce 需要 (根据 键 ) 对 RDD 
进行 重新 分 区 ， 并 计算 和 返回 某 个 聚合 值 ， 如 和 或 平均 值 。Spark 中 大 多 数 动作 的 设计 初 
圳 都 只 是 为 了 输出 一 一 返回 单个 值 或 小 的 值 列 表 ， 或 者 将 数据 写 回 分 布 式 存储 。 


Spark 的 另 一 个 好 处 是 ， 它 会 “延迟 ”应 用 转换 操作 ， 即 向 集群 提交 作业 以 执行 作业 之 前 ， 
检查 完整 的 转换 序列 和 一 个 动作 。 这 种 延迟 执行 机 制 带 来 了 明显 的 存储 和 计算 优化 ， 因 为 
它 允 许 Spark 建立 数据 转换 过 程 (lineage) 并 评估 完整 的 转换 链 ， 以 便 只 计算 结果 所 需 的 
数据 。 例 如 ， 如 果 对 RDD 运行 first() 动作 ，Spark 将 不 会 读 取 整个 数据 集 ， 并 只 返回 第 
一 个 匹配 行 。 


4.1.3 使 用 RDD 编 程 


Spark 应 用 程序 的 编写 与 之 前 在 Hadoop 上 实现 的 其 他 数据 流 框架 很 像 。 代 码 被 写 在 驱动 
程序 (driver program) 中 ， 提 交 时 在 驱动 程序 所 在 机 器 上 被 延迟 评估 。 一 旦 遇 到 动作 ， 驱 
动 程 序 代码 就 被 分 发 到 集群 上 ， 由 worker 市 点 在 各 自 的 RDD 分 区 上 执行 该 代码 。 然 后 结 
果 被 发 送 回 驱动 程序 以 进行 聚合 或 汇编 。 如 图 4-2 所 示 ， 驱 动 程序 通过 将 来 自 Hadoop 数 
据 源 的 数据 集 并 行 化 ， 创 建 一 个 或 多 个 RDD， 应 用 操作 来 转换 RDD， 然 后 对 经 过 转换 的 
RDD 调用 某 个 动作 以 检索 输出 。 































































































术语 并 行 化 已 经 出 现 好 几 次 了 ， 有 必要 来 解释 一 下 。RDD 是 分 区 的 数据 集 
合 ， 允 许 程序 员 并 行 地 对 整个 集合 应 用 操作 。 正 是 分 区 支持 了 并 行 化 ， 而 且 
分 区 本 身 也 是 数据 列表 中 计算 的 边界 ， 其 中 数据 存储 在 不 同 的 节点 上 。 因 
此 ,“ 并 行 化 ”是 一 种 行为 ， 它 将 数据 集 分 区 ， 并 将 数据 的 每 个 部 分 发 送 到 
将 对 其 执行 计算 的 节点 。 



































图 4-2: 一 个 将 集群 中 的 数据 集 并 行 化 分区) 为 RDD 的 典型 Spark 应 用 程序 
Spark 编程 的 典型 数据 流 序列 如 下 所 示 。 


(通过 访问 存储 在 磁盘 (例如 HDFS、Cassandra、HBase 或 S3) 上 的 数据 、 并 行 化 某 个 
集合 、 转 换 现 有 RDD 或 缓存 来 定义 一 个 或 多 个 RDD。 缓 存 是 Spark 的 一 个 基本 过 程 ， 
即 在 节点 内 存 中 存储 RDD， 用 于 在 计算 过 程 中 快速 访问 。 

(2) 通过 将 闭 包 (这 里 指 不 依赖 于 外 部 变量 或 数据 的 函数 ) 传递 到 RDD 的 每 个 元 素 ， 来 对 
RDD 执行 操作 。Spark 提供 了 除 map 和 reduce 之 外 的 许多 高 级 算 子 。 

(3) 对 生成 的 RDD 使 用 聚合 动作 (例如 计数 、 收 集 、 保 存 等 )。 动 作 将 启动 集群 上 的 计算 ， 

因为 在 计算 聚合 之 前 无 法 进行 任何 计算 。 

简单 解释 一 下 变量 和 闲 包 ， 这 是 两 个 在 Spark 中 容易 混 请 的 概念 。 当 Spark 在 worker 节点 

上 运行 闭 包 时 ， 闭 包 中 使 用 的 所 有 变量 都 将 被 复制 到 该 节点 ， 但 在 该 闭 包 的 局 部 范围 内 维 

护 。 如 果 需 要 外 部 数据 ，Spark 提供 了 两 种 类 型 的 共享 变量 一 一 广播 变量 和 累加 器 ， 所 有 

的 worker 节点 都 可 以 通过 受 限 方式 与 它们 交互 。 广 播 变量 被 分 发 给 所 有 worker 节点 ， 但 

是 只 读 的 ， 并 且 通 常 作为 查找 表 或 禁用 词 列表 使 用 。 累 加 器 是 一 个 变量 ，worker 节点 可 以 

“累加 ” (满足 结合 律 ) 它 ， 通 常用 作 计 数 器 。 这 些 数据 结构 类 似 于 MapReduce 中 的 分 布 式 

缓存 和 计数 器 ， 并 且 发 挥 着 类 似 的 作用 。 但 是 ， 由 于 Spark 支持 一 般 的 进程 间 通 信 ， 所 有 

这 些 数据 结构 可 以 用 于 更 广泛 的 应 用 程序 。 


闭 包 是 一 种 炫 酷 的 函数 式 编程 技术 ， 使 分 布 式 计算 得 以 实现 。 它 们 提供 词法 
作用 域名 称 绑 定 ， 这 基本 就 意味 着 闭 包 是 包括 自己 的 独立 数据 环境 的 函数 。 
由 于 存在 这 种 独立 性 ， 闭 包 的 运算 不 使 用 外 部 信息 ， 因 此 是 可 并 行 化 的 。 闭 
包 在 日 常 编程 中 越 来 越 常见 ， 通 常用 作 回调 。 在 其 他 语言 中 ， 也 可 能 被 称 为 
块 或 匿名 函数 。 
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尽管 以 下 内 容 包 含 了 如 何 使 用 Spark 来 执行 分 布 式 计算 的 示例 ， 但 Spark 开发 人 员 可 用 的 
转换 和 动作 的 完整 指南 不 在 本 书 的 讨论 范围 之 内 。 有 关 Spark 所 支持 的 转换 和 动作 的 完整 
列表 以 及 使 用 文档 ， 可 以 在 Spark Programming Guide (http://spark.apache.org/docs/latest/ 
programming-guide.html) 中 找到 。 下 一 节 将 讨论 如 何 使 用 Spark 以 交互 方式 在 命令 行 上 使 
用 转换 和 动作 ， 而 免 于 编写 完整 的 程序 。 


























Spark 执行 机 制 


以 下 内 容 是 Spark 执行 机 制 的 简要 说 明 。Spark 应 用 程序 本 质 上 是 独立 运行 的 进程 的 
集合 ， 由 驱动 程序 中 的 SparkContext 进行 协调 。 该 上 下 文 将 与 某 个 分 配 系 统 资 源 的 
集群 管理 器 (例如 YARN ) 连接 。 集 群 中 的 每 个 worker 节点 都 由 一 个 executor 管理 ， 
executor 又 由 SparkContext 管理 。executor 管理 每 台 机 器 上 的 计算 、 存 储 和 缓存 。 驱 动 
程序 、YARN 和 worker 节点 的 交互 如 图 4-3 所 示 。 
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4-3: 在 Spark 执行 模型 中 ， 驱 动 程序 是 处 理 的 一 个 重要 部 分 


但 要 注意 ， 应 用 程序 代码 从 驱动 程序 发 送 到 executor，executor 指定 上 下 文 和 要 运行 的 各 
种 任务 。executor 与 驱动 程序 来 回 通信 以 进行 数据 的 共享 或 交互 。 驱 动 程序 是 Spark 作 
业 的 关键 参与 者 ， 因 此 它们 应 该 和 集群 待 在 同一 个 网 络 上 。 这 不 同 于 Hadoop 代码 一 一 
你 可 以 从 任何 地 方 将 作业 提交 到 ResourceManager， 并 由 ResourceManager 负责 作业 在 集 
群 上 的 执行 。 


考虑 到 这 一 点 ， 就 能 明白 其 实 可 以 通过 两 种 模式 将 Spark 应 用 程序 提交 到 Hadoop 集 
群 ， 分 别 是 yarn-client 和 yarn-cluster。 在 yarn-client 模式 下 ， 了 驱动 程序 在 客户 
端 进程 内 运行 。 如 上 所 述 ，AppLicationMaster 仅 管理 作业 的 进度 并 请 求 资源 。 然 而 在 
yarn-cluster 模式 下 ， 了 驱动 程序 在 ApplicationMaster 进程 内 部 运行 ， 因 此 释放 了 客户 
端 进 程 ， 像 传统 的 MapReduce 作业 一 样 运行 。 如 果 程 序 员 想 获取 即时 结果 或 想 以 交互 
模式 运行 ， 可 以 使 用 yarn-client 模式 ; 而 对 于 时 间 运 行 长 或 不 需要 用 户 干预 的 作业 ， 
使 用 yarn-cluster 模式 更 为 合适 。 
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4.2 ”基于 PySpark 的 交互 性 Spark 


Spark 处 理 起 可 以 放 入 集群 内 存 的 数据 集 非 常 快 ， 足 以 支持 数据 科学 家 在 实现 了 Python 
REPL (read-evaluate-print loop， 读 取 、 评 估 、 打 印 循环 ) 的 交互 式 shell 中 交互 并 探索 大 
数据 。Spark 中 的 交互 式 shell 叫 pyspark。 这 种 交互 方式 类 似 于 在 Python 解释 器 中 与 本 
地 Python 代码 交互 、 在 命令 行 中 编写 命令 并 接收 stdout 的 输出 (还 有 Scala 和 R 的 交互 
式 shell) 。 这 种 类 型 的 交互 还 支持 交互 式 notebook， 在 Spark 环境 中 设置 Python 或 Jupyter 
notebook 也 非常 容易 。 


本 节 将 开始 研究 如 何在 pyspark 中 使 用 RDD， 因 为 这 是 启用 Spark 最 简单 的 方法 。 为 了 运 
行 交 互 式 shell， 你 需要 定位 pyspark 命令 ， 该 命令 位 于 Spark 库 的 bin 目录 。 和 $HADOOP_ 
HOME (一 个 指向 系统 上 Hadoop 库 的 位 置 的 环境 变量 ) 类 似 ， 你 也 应 该 配置 一 个 SSPARK_ 
HOME。Spark 无 须 配置 即 可 运行 ， 因 此 只 需 下 载 适 用 于 系统 的 Spark 就 足够 了 。 将 $SPARK_ 
HOME 禁 换 为 下 载 路 径 (或 设置 你 的 环境 ) 就 可 以 运行 交互 式 shell， 如 下 所 示 : 

hostname $ $SPARK_HOME/bin/pyspark 

Es SNLp. 0 5 


>>> 
PySpark 使 用 本 地 Spark 配置 自动 创建 了 一 个 SparkContext。 它 通过 sc 变量 
终端 。 来 创建 第 一 个 RDD 了 吧 : 

>>> text = sc.textFile("shakespeare.txt") 


>>> print text 
shakespeare.txt MappedRDD[1] at textFile at NativeMethodAccessorImpl.java:-2 


textFile 方法 将 莎士比亚 全 集 (http://bit.ly/16c7kPV) 从 本 地 磁盘 加 载 到 名 为 text 的 RDD 
中 。 如 果 你 检查 RDD， 就 会 看 到 它 是 一 个 MappedRDD， 并 且 文 件 的 路 径 是 当前 工作 目录 
(你 系统 中 要 传人 shakespeare.txt 文件 的 正确 路 径 ) 的 相对 路 径 。 与 第 2 章 中 的 MapReduce 
示例 类 似 ， 先 来 转换 这 个 RDD， 以 便 计算 分 布 式 计算 中 的 “Hello, World”， 并 使 用 Spark 
实现 单词 计数 应 用 程序 : 

>>> from operator import add 


>>> def tokenize(text): 
return text.split() 
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>>> Words = text.flatMap(tokenize) 


我 们 导入 了 算 子 add， 一 个 可 以 用 作 加 法 闭 包 的 命名 函数 ， 等 会 儿 就 要 用 到 它 。 第 一 件 要 做 
的 事 是 将 文本 拆 分 成 单词 : 创建 一 个 名 为 tokenize 的 函数 (其 参数 是 某 个 文本 片段 )， 通 过 
简单 地 使 用 空格 拆 分 文本 返回 该 文本 中 的 令 牌 (单词 ) 列表 。 然 后 ， 通 过 应 用 flatMap 算 
子 并 将 tokenize 闭 包 传递 给 它 ， 转 换 text RDD 以 创建 一 个 叫 作 words 的 新 RDD。 


此 时 ， 我 们 有 了 一 个 类 型 为 PythonRDD 的 RDD words。 你 可 能 已 经 注意 到 ， 输 入 这 些 命令 
之 后 立即 就 产生 了 结果 (尽管 有 一 个 意料 之 中 的 轻微 处 理 延迟 ， 因 为 要 将 莎士比亚 全 集 拆 
分 成 单词 )。 因 为 Spark 执行 延迟 评估 ， 所 以 处 理 的 执行 ( 读 取 数据 集 、 跨 进程 的 分 区 ， 以 
及 将 tokenize 函数 映射 到 集合 ) 还 未 发 生 。 相 反 ，PythonRDD 描述 了 创建 此 RDD 的 前 提 ， 
并 且 在 描述 中 还 维护 了 数据 到 单词 的 转换 过 程 。 
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因此 ， 我 们 可 以 继续 对 这 个 RDD 应 用 转换 ， 免 于 经 历 漫 长 的 分 布 式 执行 过 程 ， 而 且 还 可 
能 是 个 存在 错误 或 非 最 佳 的 执行 过 程 。 如 第 2 章 所 述 ， 接 下 来 的 步骤 是 将 每 个 单词 映射 到 
一 个 键 值 对 ， 甚 中 键 是 单词 ， 值 是 1， 然 后 使 用 reducer 对 每 个 键 的 1 进行 求 和 。 首 先 应 
用 map: 

>>> wc = words.map(lambda x: (x,1)) 

>>> print wc.toDebugString() 

(2) PythonRDD[3] at RDD at PythonRDD.scala:43 

| shakespeare.txt MappedRDD[1] at textFile at NativeMethodAccessorIimpl.java:-2 


| shakespeare.txt HadoopRDD[0] at textFile at 
NativeMethodAccessorImpl.java:-2 


这 次 不 使 用 命名 函数 ， 而 是 使 用 匿名 函数 (在 Python 中 使 用 Lambda 关键 字 )。 这 行 代码 
将 lambda 映射 到 words 中 的 每 个 元 素 。 因 此 ， 每 个 x 是 一 个 单词 ， 并 且 该 单词 将 被 匿名 
闭 包 转 换 成 一 个 元 组 (单词 ,1)。 为 了 检查 到 目前 为 止 的 转换 过 程 (lineage)， 可 以 使 用 
toDebugString 方法 来 查看 PipelinedRDD 是 如 何 转换 的 。 然 后 应 用 reduceByKey 动作 获取 单 
词 计 数 ， 将 它们 写 和 磁盘 : 

>>> Counts = wc.reduceByKey(add) 

>>> counts.saveAsTextFile("wc") 


一 旦 调用 saveAsTextFile 动作 ， 分 布 式 作业 就 会 启动 。 当 作业 “在 集群 中 ”( 或 者 仅 作 为 
本 地 机 器 上 的 多 个 进程 ) 和 运行 时 ， 你 会 看 到 大 量 的 INF0 语句 。 如 果 退 出 解释 右 ， 就 会 在 当 
前 工作 目录 中 看 到 一 个 名 为 wc 的 目录 : 


hostname $ Ls wc/ 
_SUCCESS part-00000 part-00001 


每 个 part 文件 表示 最 终 RDD 的 一 个 分 区 ， 最 终 RDD 由 计算 机 上 的 各 种 进程 计算 并 保存 到 
磁盘 。 如 果 对 一 个 part 文件 使 用 head 命令 ， 则 会 看 到 单词 计数 对 的 元 组 : 


hostname $ head wc/part-00000 
(u'fawn' ，14) 

(u'Fame.', 1) 

(u'Fame,', 2) 
(u'kinghenryviii@7731', 1) 
(u'othello@36737', 1) 
(u'loveslabourslost@51678' , 1) 
(u'1kinghenryiv@54228', 1) 
(u'troilusandcressida@83747' ,1) 
(u'fleeces', 1) 
(u'midsummersnightsdream@71681', 1) 


请 注意 ， 在 MapReduce 作业 中 ， 由 于 map 和 reduce 之 间 有 shuffle 阶段 和 sort 阶段 ， 所 以 

会 被 排序 。 但 因为 所 有 executor 都 可 以 相互 通信 ， 所 以 Spark 进行 reduce 时 不 会 对 重新 
分 区 排序 。 因 此 ， 前 面 的 输出 不 会 按照 字母 顺序 排列 。 不 过 ， 由 于 用 reduceByKey 算 子 聚 
合 了 counts RDD， 所 以 即使 没有 排序 ， 仍 然 能 保证 每 个 键 在 所 有 part 文件 中 仅 出 现 一 次 。 
如 果 需 要 排序 ， 可 以 使 用 sort 算 子 确保 所 有 键 在 写 入 磁盘 之 前 都 已 被 排序 。 













































































4.3 ”编写 Spark 应 用 程序 


使 用 Python 编写 Spark 应 用 程序 与 在 交互 式 控 制 台中 使 用 Spark 很 像 ， 因 为 API 是 相 
同 的 。 但 是 你 不 需要 在 交互 式 shell 中 输入 命令 ， 而 是 需要 创建 一 个 完整 的 、 可 执行 的 
驱动 程序 并 将 其 提交 到 集群 。 这 涉及 一 些 在 pyspark 中 自动 处 理 的 内 务 任务 ， 包 括 获 取 
SparkContext 的 访问 ， 这 是 由 shell 自动 加 载 的 。 


因此 ， 许 多 Spark 程序 都 是 简单 的 Python 脚本 。 它 包含 一 些 数 据 (共享 变量 )， 定 义 用 于 
转换 RDD 的 闭 包 ， 并 描述 RDD 转换 和 聚合 的 分 步 执行 计划 。 使 用 Python 编写 Spark 应 用 
程序 的 基本 模板 如 下 所 示 : 


## Spark 应 用 程序 ,使 用 spark-submit 执 行 


拓 导入 
from pyspark import SparkConf, SparkContext 



































# 共享 变量 和 数据 
APP_NAME = "My Spark Application" 


## 闭 包 函数 
天 主要 功能 
def main(sc): 

















这 里 描述 RDD 转 换 和 动作 
pass 
if _ name == "main _": 
# 配置 Spark 
conf = SparkConf().setAppName(APP_NAME) 


conf = conf.setMaster("local[*]") 
sc = SparkContext(conf=conf) 


# 执行 主要 功能 

main(sc) 
此 模板 展示 了 Python 语言 的 Spark 应 用 程序 自 上 而 下 的 结构 : import 让 各 种 Python 库 以 
及 Spark 组件 〈 例 如 GraphX 和 SparkSQL) 可 用 于 分 析 。 为 了 调试 和 日 志 记录 ， 共 享 数 据 
和 变量 被 指定 为 模块 常量 ， 包 括 在 Web UI 中 使 用 的 应 用 程序 名 称 。 为 了 便于 调试 ， 可 以 
让 驱动 程序 包含 特定 于 作业 的 闭 包 或 自 定义 算 子 ， 这 些 闭 包 或 自 定义 算 子 也 可 以 导入 到 其 
他 Spark 作业 中 。 最 后 ，main 方法 定义 转换 和 聚合 RDD 的 分 析 方法 ， 该 maiin 方法 作为 驱 
动 程序 运行 。 
资深 Python 程序 员 应 该 会 注意 到 这 里 使 用 了 if _name ”== '_main ' (通常 被 称 为 
ifmain) 语句 ， 其 中 Spark 配置 和 SparkContext 被 定义 并 传递 给 main 函数 。 通 过 ifmain 
可 以 轻松 地 将 驱动 程序 代码 导入 到 其 他 Spark 上 下 文 ， 无 须 创 建新 的 上 下 文 或 配置 、 执 行 
作业 (在 导入 时 ， 名 称 不 是 _main__)。 具 体 来 说 ，Spark 程序 员 通 常会 将 代码 从 应 用 程序 
导入 到 iPython、Jupyter notebook 或 pyspark 交互 式 shell 中 ， 以 便 在 对 较 大 的 数据 集运 行 
作业 之 前 进行 分 析 。 
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驱动 程序 定义 了 Spark 执行 过 程 的 方方面面 ， 例 如 程序 员 可 以 在 代码 中 使 用 sc.stop() 
或 sys.exit(9) 停止 或 退出 程序 。 这 样 的 控制 也 可 以 扩展 到 执行 环境 一 一 在 这 个 模板 中 ， 
Spark 集群 的 配置 local[*] 通过 setMaster 方法 硬 编码 到 SparkConf 中 ， 这 告诉 Spark 在 本 
地 机 器 上 运行 尽 可 能 多 的 进程 (多 进程 ， 但 不 是 分 布 式 计算 )。 虽 然 你 可 以 在 命令 行使 用 
spark-submit 来 指定 Spark 执行 的 位 置 ， 但 是 驱动 程序 通常 基于 使 用 os .environ 的 环境 变 
量 来 进行 选择 。 因 此 ， 在 开发 Spark 作业 (例如 使 用 DEBUG 变量 ) 时 ， 作 业 可 以 在 本 地 运 
行 ; 但 是 在 生产 环境 中 ,作业 在 集群 的 较 大 数据 集 上 运行 。 


编写 Spark 应 用 程序 肯定 与 编写 MapReduce 应 用 程序 不 同 ， 因 为 转换 和 动作 提供 了 灵活 
性 ， 以 及 更 灵活 的 编程 环境 。 在 下 一 市 中 ， 我 们 将 看 到 一 个 完整 的 分 析 ， 它 利用 驱动 程序 
的 中 心性 来 计算 集群 中 的 数据 ， 从 而 创建 一 个 可 视 化 输出 。 


使 用 Spark 可 视 化 航班 延误 
第 3 章 探讨 了 如 何 根 据 美 国 交 通 部 的 准点 航班 数据 集 (http://bit.ly/1Dz76xB)， 使 用 
Hadoop Streaming 和 MapReduce 计算 每 个 机 场 的 平均 航班 延误 时 间 。 这 种 解析 CSV 文件 
并 执行 聚合 的 计算 是 Hadoop 的 一 个 极其 常见 的 用 例 ， 主 要 由 于 CSYV 数据 很 容易 从 关系 数 
据 库 导 出 。 该 数据 集 记 录 了 美国 所 有 国内 航班 的 起 飞 时 间 、 到 达 时 间 及 其 延误 时 间 。 有 趣 
的 是 ， 虽 然 单 月 的 数据 很 容易 计算 ， 但 整个 数据 集 因为 数据 量 大大 ， 所 以 必须 使 用 分 布 式 
计算 。 
本 例 将 使 用 Spark 来 执行 数据 集 的 聚合 ， 有 具体 来 说 ， 是 确定 哪些 航空 公司 在 2014 年 4 月 
的 总 延误 时 间 最 长 。 由 于 Spark 的 Python API 更 加 灵活 ， 所 以 可 以 具体 看 看 能 使 用 哪些 
稍微 高 级 些 (和 Pythonic) 的 技术 。 此 外 ， 我 们 将 通过 matplotlib 将 结果 拉 取 回来 并 在 
驱动 程序 机 器 上 显示 可 视 化 图 表 ， 从 而 证 明 驱 动 程序 对 计算 有 多 么 重要 〈 如 果 用 传统 的 
MapReduce 执行 此 任务 ， 则 需要 两 个 步骤 ) 。 
为 了 了 解 Spark 应 用 程序 的 结构 ， 并 学 习 上 一 节 中 描述 的 模板 的 实际 用 法 ， 我 们 将 从 宏观 
上 把 握 程序 的 整体 结构 而 忽略 其 细 市 : 

内 导入 


import csv 
import matplotlib.pyplot as plt 



















































































from StringIO import StringIO 

from datetime import datetime 

from collections import namedtuple 

from operator import add, itemgetter 

from pyspark import SparkConf, SparkContext 


礁 模块 常数 

APP_NAME = "Flight Delay Analysis" 
DATE_FMT = "%Y-%m-%d" 

TIME_FMT = "%H%M" 


fields = ('date', 'airline', 'flightnum', 'origin', 'dest', 'dep', 
'dep_delay', 'arv', 'arv_delay', 'airtime', 'distance') 
Flight = namedtuple('Flight', fields) 
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扒 闭 包 函数 


def parse(row): 





一 个 命名 元 组 
pass 

def split(line): 
使 用 csv 模 块 分 制 行 的 函数 
pass 


def plot(delays): 





显示 航空 公司 总 延误 状况 的 柱状 图 
pass 


## 主 要 功能 


def main(sc): 


描述 数据 集 上 应 用 的 转换 和 动作 ， 





然后 使 用 matpLotLib 绘 制 输出 结果 的 可 视 化 








pass 


if _name _ == "main _": 
# 配置 Spark 

conf = 
conf = 


SC 


Conf .setAppName(APP_NAME) 
SparkContext(conf=conf ) 


# 执行 主要 功能 
main(sc) 


SparkConf().setMaster("local[*]") 


这 段 代码 虽然 很 长 ， 但 却 是 现实 中 Spark 程序 结构 的 一 个 良好 概览 。import 说 明 标准 库 工 
具 和 第 三 方 库 (如 matplotlib) 通常 混合 使 用 。 与 Hadoop Streaming 一 样 ， 任 何不 属于 标 
准 库 的 第 三 方 代 码 都 必须 预先 安装 在 集群 上 ， 或 随 作 业 一 起 提供 。 对 于 只 需要 在 驱动 程序 
上 执行 ， 而 不 需要 在 executor 中 执行 的 代码 (如 matptotLib)， 可 以 使 用 try/except 块 捕 








获 ImportError 。 


与 Hadoop Streaming 一 样 ， 任 





是 ，Spark 有 两 个 上 下 文 〈《 即 











何不 属于 Python 标准 库 的 第 三 方 Python 依赖 


都 必须 预先 安装 在 集群 中 的 每 个 节点 上 上。 但是， 与 Hadoop Streaming 不 同 的 


区 动 程序 上 下 文 和 executor 上 下 文 )， 这 允许 一 








些 重 量 级 库 (特别 是 可 视 化 库 











) 可 以 只 安装 在 驱动 程序 机 器 上 一 一 只 要 它们 


不 被 在 集群 上 运行 的 Spark 运算 使 用 的 闭 包 使 用 就 可 以 。 如 果 想 要 预防 错误 ， 
可 以 使 用 try/except 块 包 庄 import 语句 来 捕获 ImportError 。 
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然后 ， 应 用 程序 定义 了 一 些 可 配置 的 数据 ， 包 括 用 于 解析 datetime 字符 串 的 日 期 和 时 间 格 
式 以 及 应 用 程序 名 称 。 它 还 创建 了 专用 的 namedtuple 数据 结构 ， 以 便 从 输入 数据 创建 轻 量 
级 、 可 访问 的 行 。 此 信息 应 该 可 为 全 部 executor 所 用 ,但 是 它 又 足够 轻 量 ， 所 以 不 需要 广 
播 变 量 。 接 下 来 ， 定 义 处 理 函 数 parse、split 和 pLot， 再 使 用 SparkContext 定义 航空 公 
司 数据 集 上 动作 和 转换 的 main 函数 。 最 后 ，ifmain 配置 Spark 并 执行 main 函数 。 

有 了 这 个 完整 的 高 级 概览 之 后 ， 再 来 深入 了 解 一 下 代码 的 细节 。 从 定义 主要 Spark 操作 和 
分 析 方 法 的 maiin 方法 开始 : 


枯 主要 功能 
def main(sc): 























描述 在 数据 集 上 应 用 的 转换 和 动作 ， 
然后 使 用 matpLotLib 绘 制 输出 结果 的 可 视 化 

















# 加 载 航空 公司 查找 字典 
airlines = dict(sc.textFile("ontime/airlines.csv").map(split).collect()) 





























# 将 查找 字典 广播 到 集群 


airline lookup = sc.broadcast(airlines) 











# 读 取 CSV 数 据 到 一 个 RDD 
flights = sc.textFile("ontime/flights.csv").map(split).map(parse) 


# 映射 总 延误 时 间 到 航空 公司 (使 用 广播 变量 进行 关联 ) 
delays = flights.map(lambda f: (airline lookup.value[f.airline], 
add(f.dep_delay, f.arv_delay))) 


# 航空 公司 当月 总 延误 时 间 
delays = delays.reduceByKey(add).collect() 
delays = sorted(delays, key=itemgetter(1)) 


# 驱动 程序 提供 输出 
for d in delays: 
print "%0.0f minutes delayed\t%s" % (d[1], d[0]) 





# 显示 延误 时 间 柱 状 图 

plot(delays) 
第 一 个 任务 是 从 磁盘 加 载 两 个 数据 源 ， 航空 公司 代码 对 应 航空 公司 名 称 的 查找 表 ， 以 及 
航班 数据 集 。 数 据 集 airlines.csv 是 一 个 小 跳 转 表 ， 人 允许 通过 航空 公司 代码 获取 完整 的 航 
空 公司 名 称 。 不 过 由 于 这 个 数据 集 非 常 小 ， 所 以 不 必 执 行 两 个 RDD 的 分 布 式 连接 ， 而 
是 将 此 信息 存储 为 Python 字典 ， 并 使 用 sc.broadcast 将 其 广播 到 集群 中 的 每 个 节点 。 
sc.broadcast 将 本 地 Python 字典 转换 为 广播 变量 。 
下 面 来 说 说 这 个 广播 变量 的 创建 和 执行 。 首 先 ， 从 本 地 磁盘 上 的 文本 文件 airlines.csv 〈 注 
意 它 的 相对 路 径 ) 创建 一 个 RDD。 之 所 以 需要 创建 RDD， 是 因为 这 些 数据 可 能 来 自 
Hadoop 数据 源 ， 而 该 数据 源 可 能 由 其 位 置 的 URI (例如 ，HDFS 数据 使 用 hdfs://、S3 使 
用 s3:/ 等 ) 指定 。 请 注意 ， 如 果 这 个 文件 只 在 本 地 机 器 上 ， 则 不 需要 将 其 加 载 到 RDD 中 。 
然后 ， 将 spLit 函数 映射 到 数据 集中 的 每 个 元 素 ， 如 上 所 述 。 最 后 ， 将 cotlect 动作 应 用 
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于 RDD， 它 将 数据 作为 Python 列表 从 集群 返回 到 驱动 程序 。 因 为 应 用 了 collect 动作 ， 
所 以 当 这 行 代码 执行 时 ， 作 业 将 被 发 送 到 集群 以 加 载 、 拆 分 RDD， 并 将 上 下 文 返回 到 驱动 
程序 : 

def split(line): 











使 用 csv 模 块 分 割 行 的 函数 


reader = csv.reader(StringI0(line)) 
return reader.next() 


split 函数 使 用 csv 模块 解析 每 行文 本 一 一 使 用 StringI0 创建 一 个 带 文 本 行 的 类 似 文件 的 对 
象 ， 然 后 将 其 传递 给 csv.reader。 因 为 只 有 一 行文 本 ， 所 以 可 以 简单 地 返回 reader .next()。 
虽然 这 种 CSV 解析 方法 看 似 相 当 重 量 级 ， 但 是 它 让 我 们 能 更 轻松 地 处 理 分 隔 符 、 转 
义 和 CSV 处 理 中 的 其 他 细 枝 末节 。 对 于 较 大 的 数据 集 ， 通 过 类 似 的 方法 ， 使 用 
sc.wholeTextFiles 处 理 大量 被 分 割 为 128MB 的 块 ( 即 HDFS 上 的 块 大 小 和 副本 大 小 ) 的 
整个 CSV 文件 : 









































def parse(row): 


解析 行 并 返回 一 个 命名 元 组 





row[0] = datetime.strptime(row[0], DATE_FMT).date() 
row[5] = datetime.strptime(row[5], TIME_FMT).time() 


row[6] = float(row[6]) 
row[7] = datetime.strptime(row[7], TIME_FMT).time() 
row[8] = float(row[8]) 
row[9] = float(row[9]) 


row[10] = float(row[10]) 
return Flight(*row[:11]) 


接 下 来 ，main 函数 加 载 更 大 的 fights.csv， 后 者 需要 使 用 RDD 以 并 行 方式 计算 。 分 割 CSV 
行 之 后 ， 将 parse 国 数 映射 到 CSV 行 ， 这 可 以 将 日 期 和 时 间 转 换 为 Python 的 日 期 和 时 
间 ， 并 适当 地 转换 淫 点 数 。 此 函数 的 输出 是 一 个 名 为 Flight 的 namedtuple， 在 应 用 程序 
的 模块 常量 部 分 定义 。 命 名 元 组 是 包含 记录 信息 的 轻 量 级 数据 结构 ， 人 允许 通 过 名 称 (例如 
flight.date) 而 不 是 位 置 (例如 flight[9]) 来 访问 数据 。 和 普通 的 Python 元 组 一 样 ， 命 
名 元 组 也 不 可 变 ， 因 此 可 以 放心 地 将 它们 用 于 处 理 程序 ， 数 据 不 会 被 修改 。 此 外 ， 与 字典 
相 比 ， 它 们 占用 的 内 存 更 小 ， 处 理 效率 也 更 高 。 因 此 ， 命 名 元 组 在 内 存 尤 显 珍贵 的 大 数据 
应 用 程序 (如 Spark) 中 具有 显著 的 优势 。 


有 了 Flight 对 象 的 RDD 后 ,我们 要 做 的 最 后 一 个 转换 是 映射 一 个 匿名 函数 ， 将 RDD 
转换 成 一 系列 键 值 对 ， 其 中 键 是 航空 公司 的 名 称 ， 值 是 到 达 和 起 飞 的 延误 时 间 之 和 。 目 
前 除了 创建 航空 公司 字典 之 外 ， 还 没有 对 该 集合 执行 过 任何 操作 。 不 过 一 旦 开始 使 用 
reduceByKey 动作 和 add 算 子 计算 每 个 航空 公司 的 延误 时 间 之 和 ， 访 作业 就 将 在 集群 中 执 
行 ， 运算 结果 将 被 收集 回 驱 动 程序 。 


此 时 ， 集 群 计算 已 经 完成 ， 驱 动 程序 以 串 行 方式 继续 运行 。 延 误 时 间 按 照 延误 程度 在 客户 
端 程序 的 内 存 中 进行 排序 。 请 注意 ， 之 所 以 能 这 么 做 ， 原 因 和 创建 航空 公司 查找 表 作 为 广 
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播 变量 的 原因 相同 : 航空 公司 的 数量 很 少 ， 在 内 存 中 排序 的 效率 更 高 。 但 如 果 这 个 RDD 
非常 大 ， 就 可 以 使 用 rdd.sort 进行 分 布 式 排序 。 最 后 ， 我 们 没有 将 结果 写 入 磁盘 ， 而 是 将 
输出 打印 到 控制 台 。 如 果 数 据 集 较 大 ， 则 可 以 使 用 rdd.first 动作 来 获取 前 n 个 项 目 ， 而 
不 用 打印 整个 数据 集 ， 或 者 可 以 使 用 rdd.saveAsTextFile 将 数据 写 回 到 本 地 磁盘 或 HDFS。 
最 后 ， 因 为 数据 在 驱动 程序 中 可 用 ， 所 以 可 以 使 用 matplotlib 可 视 化 结果 ， 如 下 所 示 : 

def plot(delays): 





















































显示 航空 公司 总 延误 状况 柱状 图 





airlines = [d[0] for d in delays] 
minutes [d[1] for d in delays] 
index list(xrange(len(airlines))) 


fig, axe = plt.subplots() 
bars = axe.barh(index, minutes) 


# 在 右 侧 添加 总 分 钟 数 
for idx, air, min in zip(index, airlines, minutes): 
if min > 0: 
bars[idx].set_color('#d9230f') 
axe.annotate(" %0.0f min" % min, xy=(min+1, idx+0.5), va='center') 
else: 
bars[idx].set_color('#469408') 
axe.annotate(" %0.0f min" % min, xy=(10, idx+0.5), va='center') 


# 设置 tick 

ticks = plt.yticks([idx+ 0.5 for idx in index], airlines) 
xt = plt.xticks()[0] 

plt.xticks(xt, [' '] * Len(xt)) 


# 最 小 化 图 表 垃圾 


plt.grid(axis = 'x', color ='white', linestyle='-') 


plt.title('Total Minutes Delayed per Airline') 
plt.show() 


希望 此 示例 能 说 明 集 群 和 驱动 程序 的 交互 过 程 (发 送 数 据 进行 分 析 ， 然 后 将 结果 返回 到 驱 
动 程序 )， 以 及 Python 代码 在 Spark 应 用 程序 中 起 到 的 作用 。 要 运行 此 代码 (假定 你 有 一 
个 名 为 ontime 的 目录 ， 其 中 有 这 两 个 CSV 文件 )， 请 使 用 spark-submit 命令 ， 如 下 所 示 : 


hostname $ spark-submit app.py 


因为 在 ifmain 中 将 master 节点 的 配置 硬 编码 为 了 Locathost[*]， 所 以 此 命令 创建 了 一 个 
Spark 作业 ， 它 有 localhost 上 尽 可 能 多 的 进程 。 这 个 Spark 作业 将 使 用 本 地 SparkContext 
执行 main 函数 中 指定 的 转换 和 动作 首先， 将 跳 转 表 加 载 为 RDD， 收 集 它 并 将 它 广播 给 
所 有 进程 ， 然 后 ， 加 载 航 班 数据 RDD 并 以 并 行 方式 计算 平均 延误 时 间 。 

一 旦 上 下 文 和 collect 的 输出 返回 到 驱动 程序 ， 就 可 以 使 用 matplotlib 来 可 视 化 结果 了 ， 
如 图 4-4 所 示 。 最 终结 果 显 示 ，2014 年 4 月， 夏威夷 航空 公司 和 阿拉 斯 加 航空 公司 的 总 延 
误 时 间 (以 分 钟 为 单位 ) 最 短 ， 其 至 有 提前 达到 ， 其 余 大 航空 公司 均 有 延误 。 本 例 的 新 疾 
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之 处 不 在 于 分 析 的 可 视 化 ， 而 是 在 一 步 步 提交 3 























行 执行 作业 的 过 程 中 ， 在 合理 的 时 间 内 显 


示 结 果 。 因 此 ， 这 类 直接 向 用 户 提供 按 需 分 析 以 立即 获得 有 用 信息 的 应 用 程序 变 得 越 来 越 





Southwest Airlines Co.: WN 
Expressjet Airlines Inc.: EV 
SkyWest Airlines Inc.: 00 
Envoy Air: MQ 

Delta Air Lines Inc.: DL 
American Airlines Inc.: AA 
United Air Lines Inc.: UA 
JetBlue Airways: B6 

US Airways Inc.: US 
Frontier Airlines Inc.: F9 
Virgin America: VX 

AirTran Airways Corporation: FL 
Hawaiian Airlines Inc.: HA 
Alaska Airlines Inc.: AS 
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图 4-4: 数据 集中 延误 时 间 最 长 的 航空 公司 的 可 视 化 图 


4.4 ”小 结 


虽然 Spark 最 初 旨 在 突破 MapReduce 在 执行 迭代 算法 方面 的 局 限 性 ， 但 它 现在 已 经 发 展 成 


为 了 一 个 完整 的 通用 分 布 式 计算 引擎 。Spark 已 经 应 用 于 大 量 大 数据 处 和 











工作 负载 一 一 它 


们 都 使 用 了 Spark 这 一 通用 引擎 ， 而 没有 实现 专用 系统 。 因 为 Spark 比 传统 的 MapReduce 
快 10~20 倍 ， 所 以 你 可 能 想 知道 Spark 在 Hadoop 生态 系统 中 处 于 什么 位 置 。 虽 然 说 Spark 
终 将 替代 MapReduce 还 为 时 过 早 ， 但 它 已 经 吸引 了 相当 多 采用 了 Hadoop 的 企业 和 公司 ， 
这 些 组 织 需 要 一 个 可 以 使 用 现 有 的 集群 资源 执行 接近 实时 计算 的 平台 。 但 是 要 记 住 ， 至 少 
现在 Spark 还 不 是 Hadoop 和 MapReduce 的 替代 品 ， 而 应 该 被 认为 是 它们 的 扩展 ， 并 且 可 
以 与 Hadoop 生态 系统 的 其 他 组 成 部 分 并 存 。 


Spark 不 解决 分 布 式 存储 问题 (通常 Spark 从 HDFS 获取 其 数据 )， 但 它 为 分 布 式 计算 提供 
了 丰富 的 函数 式 编程 API。 这 种 框架 建立 在 弹性 分 布 式 数据 集 (RDD) 的 理念 上 。RDD 是 
一 种 编程 抽象 ， 表 示 分 区 的 对 象 集合 ， 人 允许 对 它们 执行 分 布 式 操作 。RDD 是 容错 的 (弹性 
部 分 )， 还 可 以 存储 在 worker 节点 的 内 存 中 ， 以 便 快速 重用 。 内 存 存储 提供 更 快 、 更 容易 
表达 的 返 代 算法 ， 还 支持 实时 交互 式 分 析 。 

因为 Spark 库 拥 有 Python、R、Scala 和 Java 的 API， 以 及 用 于 机 器 学 习 、 流 式 数据 、 图 形 
算法 和 类 SQL 查询 的 内 置 模块 ， 所 以 它 已 经 迅速 成 为 现今 最 重要 的 分 布 式 计算 框架 之 一 。 
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当 与 YARN 结合 时 ，Spark 用 于 增强 〈 不 是 替换 ) 现 有 的 Hadoop 集群 。 未 来 ， 它 将 成 为 
大 数据 的 重要 组 成 部 分 ， 开 尽数 据 科学 探索 的 新 途径 。 

这 一 章 远 不 止 是 Spark 的 完整 介绍 ， 相反 ， 它 介绍 了 Spark 计算 框架 和 弹性 分 布 式 数据 集 ， 
提供 了 如 何 与 Spark 交互 和 编程 的 思路 。 因 为 本 书 的 目标 读者 是 了 解 Python 或 R 的 数据 科 
学 家 ， 所 以 他 们 可 能 觉得 Spark 比 Hadoop Streaming 更 适合 作 分 析 。 在 本 书 余下 的 内 容 中 ， 
我 们 将 使 用 Hadoop Streaming 和 Spark 进行 计算 ,但 在 大 多 数 情 况 下 一 一 特别 是 与 机 器 学 
习 相 关 时 一 一 将 主要 使 用 Spark。 














第 5 章 


分 布 式 分 析 和 模式 





MapReduce 和 Spark 让 开发 人 员 和 数据 科学 家 能 轻松 进行 数据 并 行 运算 。 在 这 类 运算 中 ， 
数据 被 分 发 到 多 个 处 理 节 点 同时 计算 ， 然 后 通过 reduce 产生 最 终 输 出。 而 YARN 提供 了 
简单 的 任务 并 行 性 ， 通 过 为 每 个 任务 分 配 自由 计算 资源 ， 支 持 集群 同时 执行 多 个 不 同 的 操 
作 。 并 行 缩短 了 执行 单个 计算 所 需 的 时 间 ， 从 而 支持 以 每 秒 数 千 条 记录 的 速度 分 析 PB 级 
的 数据 集 ， 或 处 理由 多 个 异 构 数据 源 组 成 的 数据 集 。 然 而 ， 大 多 数 并 行 运算 (如 前 述 运 
算 ) 都 比较 简单 。 这 也 带 来 了 一 个 问题 : 数据 科学 家 如 何 进 行 大 规模 高 级 数据 分 析 ? 


不 妨 用 Creighton Abrams 的 一 句 话 总 结 一 下 大 规模 分 析 的 主要 原则 :“ 要 想 吃 掉 一 头 大 象 ， 
也 得 一 口 一 口 来 。 单个 运算 只 对 数据 进行 多 个 微小 的 处 理 ， 而 要 想得到 更 有 意义 的 结果 ， 
必须 将 这 些 运算 组 成 一 个 被 称 为 数据 流 的 分 步 序列 。 如 有 果 两 个 运算 可 以 同时 进行 ， 则 数据 
流 可 以 分 又 (fork) 和 合并 (merge)， 支 持 任务 和 数据 并 行 ， 但 是 必须 保证 序列 的 数据 从 
输入 数据 源 串 行 馈送 到 最 终 输 出 。 因 此， 数据 流 被 描述 为 有 向 无 环 图 (DAG)。 如 果 一 种 
算法 、 分 析 或 精心 设计 的 计算 可 以 表示 为 DAG， 则 它 可 以 在 Hadoop 上 并 行 化 ， 认 识 到 这 
一 点 非常 重要 。 


不 幸 的 是 ， 你 很 快 就 会 发 现 ， 许 多 算法 都 不 能 轻易 转换 为 DAG， 也 就 不 适合 这 种 类 型 的 
并 行 化 了 。 不 能 被 摘 述 为 有 向 数据 流 的 算法 有 : 在 整个 计算 过 程 中 维持 或 更 新 单个 数据 结 
构 的 算法 (需要 一 些 共享 内 存 )， 或 者 依赖 中 间 步 又 计算 结果 的 算法 (需要 中 间 进 程 间 通 
信 )。3 引 入 循环 的 算法 ， 特 别 是 循环 次 数 不 限 的 迭代 算法 ， 也 不 容易 描述 为 DAG。 


有 一 些 工 具 和 技术 可 以 满足 MapReduce 和 Spark 中 循环 性 、 共 享 内 存 或 进程 间 通 信 的 需 
求 。 但 是 要 利用 这 些 工具 ， 必 须 将 算法 重 写 为 分 布 式 形 式 。 比 起 重 写 算法 ， 更 常 采用 的 是 
一 种 技术 要 求 更 低 但 同样 有 效 的 方法 : 设计 一 种 数据 流 ， 将 输入 域 分 解 为 适合 单个 机 器 内 
存 的 较 小 输出 ， 对 输出 运行 串 行 算法 , 然后 使 用 另 一 个 数据 流 在 集群 上 验证 该 分 析 (例如 
计算 误差 )。 
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正 是 因为 这 种 方法 被 广泛 采用 ，Hadoop 才 被 普遍 认为 是 一 个 释放 大 数据 集 汶 力 的 预 处 理 
器 一 一 它 通 过 每 个 操作 将 数据 集 规 约 (reduce) 成 越 来 越 容 易 管理 的 块 。 一 种 常见 做 法 是 ， 
使 用 MapReduce 或 Spark 将 数据 分 解 到 一 个 可 以 载 入 128GB 内 存 (高 性 价 比 机 器 的 硬件 
要 求 ) 的 计算 空间 中 。 这 个 规则 通常 被 称 为 “最 后 一 英里 ”(last-mile) 计算 ， 因 为 它 将 数 
据 从 极 大 的 空间 移动 到 足够 近 的 地 方 〈 即 最 后 一 英里 )， 从 而 能 够 进行 准确 的 分 析 或 特定 
于 应 用 程序 的 计算 。 


在 本 章 中 ， 我 们 将 在 数据 流 的 上 下 文中 探讨 将 计算 空间 缩小 或 分 解 为 更 易于 管理 的 计算 
空间 的 并 行 计算 模式 。 首 先 ， 讨 论 基于 键 的 计算 ， 这 是 MapReduce 的 需求 ， 对 Spark 也 
至 关 重 要 ， 接 着 ， 学 习 概 要 (summarization) 、 索 引 (indexing) 和 过 滤 (filtering) 的 模 
式 ， 这 些 模式 是 大 多 数 分 解 算法 的 关键 部 分 一 一 在 这 个 上 下 文中 ， 我 们 将 讨论 统计 概要 、 
抽样 、 搜 索 和 分 类 (binning) 的 应 用 ， 最 后 ， 纵 览 三 种 回归 、 分 类 和 聚 类 风格 分 析 的 预 
处 理 技术 。 























本 章 将 介绍 一 些 Hadoop 生态 系统 中 使 用 的 方法 。 这 些 方法 也 被 其 他 项 目 使 
用 ,具体 内 容 将 在 最 后 4 章 讨论 。 本 章 还 将 讨论 表示 为 数据 流 的 算法 ， 而 第 
8 章 将 接着 讨论 用 于 创建 数据 流 的 工具 ， 包 括 高 级 API (如 Pig 和 Spark Data 
Frames)。 本 章 讨论 的 许多 过 滤 和 概要 算法 更 容易 表示 为 结构 化 查询 ， 第 7 
章 将 具体 讨论 如 何在 Hadoop 上 使 用 Hive 执行 结构 化 查询 。 最 后 ， 这 些 章节 
中 的 组 件 (包括 Sckit-Learmn 模型 的 用 法 ) 是 理解 使 用 Spark 的 MLlib 进行 机 
器 学 习 的 第 一 步 ， 这 将 在 第 9 章 中 讨论 。 




















本 章 还 介绍 了 经 常用 于 数据 分 析 的 标准 算法 ， 包 括 统计 概要 (并行 版 的 “describe” 命 令 )、 
并 行 grep、TF-IDF 和 canopy 聚 类 。 通 过 这 些 例子 ， 我 们 将 阐明 MapReduce 和 Spark 的 基 
本 机 制 。 


5.1 键 计算 


要 理解 数据 流 实际 是 如 何 工作 的 ， 第 一 步 就 是 理解 键 值 对 和 并 行 计算 之 间 的 关系 。 在 
MapReduce 中 ， 所 有 数据 在 map 阶段 和 reduce 阶段 都 被 构造 为 键 值 对 。 关 键 需求 主要 与 
reduce 有 关 ， 因 为 聚合 是 按键 分 组 的 ， 并 行 reduce 需要 对 键 空间 ( 换 句 话说 ， 就 是 键 的 值 
域 ) 进行 分 区 ， 使 每 一 个 reducer 任务 都 能 收 到 一 个 键 的 所 有 值 。 如 果 没 有 用 于 分 组 的 键 
(这 其 实 很 常见 )， 你 就 可 以 按 单一 的 键 进 行 reduce， 强 制 对 所 有 映射 值 进 行 reduce。 然 而 
在 这 种 情况 下 ，reduce 阶段 无 法 从 并 行 中 受益 。 

键 虽然 经 常 被 忽略 (特别 是 在 mapper 中 ， 键 仅仅 是 文档 标识 符 ) ， 但 是 它 能 让 计算 在 数据 
集 上 同时 进行 。 因 此 ， 数 据 流 表达 了 一 组 值 与 男 一 组 值 之 间 的 关系 。 这 听 起 来 很 耳 熟 ， 尤 
其 是 在 更 传统 的 数据 管理 方式 的 上 下 文中 ， 它 相当 于 关系 数据 库 的 结构 化 查询 。 就 像 你 不 
会 在 PostgreSQL 这 样 的 数据 库 上 运行 多 个 单独 的 查询 来 进行 不 同 维度 的 分 析 ，MapReduce 
和 Spark 计算 采用 了 并 行 执行 分 组 操作 ， 如 图 5-1 所 示 的 按键 分 组 的 平均 值 计 算 。 
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图 5-1: 通过 将 键 空间 分 区 到 多 个 reducer， 键 支持 并 行 reduce 


此 外 ， 键 可 以 保存 在 数据 流 的 一 个 阶段 中 已 经 被 reduce 的 信息 ， 还 能 自动 并 行 下 一 步 计 
算 所 需 的 结果 。 这 是 通过 复合 键 完成 的 ， 下 一 节 将 讨论 这 种 技术 ， 它 表明 键 不 一 定 是 简 
单 的 、 原 始 的 值 。 事 实 上 ， 键 对 于 这 些 类 型 的 计算 非常 有 用 ， 尽 管 它们 在 使 用 Spark 的 
计算 中 不 是 必需 品 (RDD 可 以 是 简单 值 的 集合 ) ， 但 大 多 数 Spark 应 用 程序 需要 它们 来 
进行 分 析 ， 主 要 是 使 用 groupByKey、aggregateByKey、sortByKey 和 reduceByKey 动作 来 
收集 和 reduce。 


5.1.1 复合 键 

键 不 一 定 是 简单 的 原始 数据 类 型 ， 如 整 型 或 字符 串 ， 相 反 ， 它 们 可 以 是 复合 类 型 或 复杂 类 
型 ， 只 要 是 可 散 列 (hashable) 且 可 比较 (comparable) 的 即 可 。 可 比较 的 类 型 必须 至 少 能 
暴露 某 种 用 于 判断 相等 的 机 制 (用 于 shuffle) 和 某 种 排序 方法 (用 于 sort)。 一 般 通过 将 某 
种 类 型 映射 到 一 个 数值 〈 例 如 ， 将 月 份 映射 到 整数 1~12)， 或 通过 词汇 顺序 来 完成 比较 。 
Python 中 的 可 散 列 类 型 是 任意 一 种 不 可 变 类 型 ， 最 典型 的 就 是 元 组 。 但 是 元 组 可 以 包含 可 
变 类 型 (例如 一 个 列表 的 元 组 )， 因 此 可 散 列 的 元 组 是 指 由 不 可 变 类 型 组 成 的 元 组 。 像 列 
表 和 字典 这 样 的 可 变 类 型 可 以 转换 为 不 可 变 的 元 组 。 


# 将 列表 转换 为 元 组 
key = tuple(['a', 'b', 'c']) 





















































# 将 字典 转换 为 由 元 组 构成 的 元 组 
Key = {a 1,- 206.024 
key = tuple(key.items()) 
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使 用 复合 键 的 方式 主要 有 两 种 : 在 多 个 维度 上 划分 键 空间 ， 以 及 在 仅 涉 及 值 的 计算 阶段 扒 
带 特定 于 键 的 信息 。 思 考 以 下 形式 的 Web 日 志 记 录 : 











local - - [30/Apr/1995:21:18:07 -0600] "GET 7448.htmL HTTP/1.0" 404 - 
local - - [30/Apr/1995:21:18:42 -0600] "GET 7448.htmL HTTP/1.0" 200 980 
remote - - [30/Apr/1995:21:22:56 -0600] "GET 4115.htmL HTTP/1.0" 200 1363 
remote - - [30/Apr/1995:21:26:29 -0600] "GET index.htmL HTTP/1.0" 200 2881 


Web 日 志 记 录 是 Hadoop 大 数据 计算 的 典型 数据 源 ， 因 为 它们 代表 每 个 用 户 的 点 击 流 式 数 
据 ， 从 中 可 以 轻松 探究 数据 的 多 个 方面 。 此 外 ， 它 们 往往 也 是 非常 大 的 动态 半 结 构 化 数据 
集 ， 非 常 适 合 在 Spark 和 MapReduce 中 进行 运算 。 要 对 该 数据 集 进行 初始 计算 ， 则 先 需 要 
进行 频率 分 析 。 例 如 ， 可 以 使 用 复合 键 将 文本 分 解 为 两 个 每 日 时 间 序 列 ， 一 个 用 于 本 地 流 
， 男 一 个 用 于 远程 流量 。 

import re 

from datetime import datetime 


























十 


# 解析 日 志 记录 中 的 日 期 时 间 
dtfmt = "%d/%b/%Y:%H:%M:%S %z" 














# 使 用 正则 表达 式 解 析 日 志 记 录 
linre = re.Compite(r' ^(\wrt) \- \- \[CH)\] +) Cd+) ([\d\-]+)$') 





def parse(Line) : 
# 使 用 正则 表达 式 匹 配 日 志 记 录 
match = linre.match(line) 
if match is not None: 
# 正则 表达 式 含 有 分 组 ,能 提取 日 志 源 .时 间 疏 、 
# 请 求 .状态 码 和 响应 字 节 大 小 
parts = match.groups() 





# 解析 日 期 时 间 , 返 回 日 志 源 .年 和 天 
date = datetime.strptime(parts[1], dtfmt).timetuple() 
return (parts[0], date.tm year, date.tm yday) 


将 此 函数 用 于 mapper 可 以 解析 日 志文 件 的 每 一 行 ， 或 作为 闭 包 传递 给 从 文本 文件 中 加 载 
的 RDD 的 map 方法 。parse 函数 使 用 一 个 日 期 格式 和 一 个 正则 表达 式 来 解析 行文 本 ， 然 后 
发 出 由 流量 类 型 、 年 份 和 当天 在 当年 中 的 位 置 组 成 的 复合 键 。 该 键 与 计数 器 (例如 数字 1) 
相关 联 ， 计 数 器 可 以 被 传递 到 求 和 reducer 中 以 获取 基于 频率 的 时 间 序 列 。 上 映射 该 数据 集 
生成 了 以 下 数据 : 

('local', 1995, 120) 1 

('local', 1995, 120) 1 


('remote', 1995, 120) 1 
('remote', 1995, 120) 1 


用 作 复 杂 键 的 复合 键 支持 在 键 空间 的 多 个 面 上 进行 计算 ， 例 如 网 络 流量 的 来 源 、 年 份 和 
天 ， 这 是 复合 键 最 常见 的 用 例 。 另 一 个 常见 用 例 是 将 特定 键 的 信息 传播 到 下 游 计 算 ， 例 如 
依赖 于 reduce 或 每 个 键 的 聚合 值 的 计算 。 通 过 将 reducer 的 计算 与 键 (特别 是 类 似 计数 或 
序 点 数 的 值 ) 相关 联 ， 这 些 信 息 能 与 键 一 起 被 维护 ， 以 用 于 更 复杂 的 计算 。 





























MapReduce、Spark 的 Java 以 及 Scala API 都 需要 使 用 强 类 型 的 键 和 值 。 就 
Hadoop 而 言 ， 这 意味 着 复合 键 和 结构 化 的 值 需 要 被 定义 为 实现 Writable 接 
口 的 类 ， 并 且 键 必须 实现 WritableComparable 接口 。 这 些 工 具 使 Java 和 
Scala 开发 人 员 能 够 使 用 轻 量 级 且 可 扩展 的 数据 结构 序列 化 功能 ， 从 而 最 大 
限度 上 减少 了 网 络 流 量 并 支持 shuffle 和 sort 操作 。 然 而 ，Python 开发 人 员 需 
要 自己 将 元 组 和 Python 原始 类 型 序列 化 成 字符 串 ， 还 得 将 它们 转换 回来 。 要 
想 序 列 化 符 套 数据 结构 ， 可 以 使 用 json 模块 。 在 处 理 更 复杂 的 作业 时 ， 二 
进 制 序列 化 格式 (如 Protocol Buffers、Avro 或 Parquet) 可 通过 最 小 化 网 络 
流量 来 缩短 处 理 时 间 。 






































复合 数据 序列 化 

使 用 复合 键 (和 复杂 的 值 ) 的 最 后 一 步 是 理解 复合 数据 的 序列 化 和 反 序 列 化 。 序 列 化 是 指 
将 内 存 中 的 对 象 转换 成 字 节 流 ， 使 其 可 以 被 写 入 磁盘 或 通过 网 络 传输 〈 反 序列 化 是 指 相 
反 的 过 程 )。 序 列 化 过 程 必 不 可 少 ， 特 别 是 在 MapReduce 中 ， 因 为 键 和 值 在 map 阶段 和 
reduce 阶段 之 间 被 写 入 磁盘 (通常 作为 字符 串 写 入 )。 然 而 ,理解 Spark 中 的 序列 化 也 非常 
重要 一 一 Spark 的 中 间作 业 要 对 数据 进行 预 处 理 ， 供 后 续 计算 使 用 。 


在 Spark 中 ，Python API 默认 使 用 pickle 模块 进行 序列 化 ， 这 意味 着 你 使 用 的 任何 数据 结 
构 都 必须 是 可 以 pickle 的 。 虽 然 ptckte 模块 非常 高 效 ， 但 在 Spark 编程 中 ， 这 个 约束 可 能 
沦 为 一 个 陷阱 (gotcha)， 特 别 是 传递 闭 包 (不 依赖 于 全 局 值 的 函数 ， 通 常 是 匿名 lambda 
表达 式 ) 时 。 使 用 MapReduce Streaming 时 ， 必 须 将 键 和 值 序列 化 为 字符 串 ， 并 以 指定 的 
字符 分 隔 ， 默 认 情 况 下 为 制 表 符 〈(\t)。 新 的 问题 来 了 : 有 没有 更 高 效 的 办 法 ， 能 将 复合 
键 (和 值 ) 序列 化 为 字符 串 呢 ? 

我 们 通常 会 简单 地 使 用 内 置 的 str 函数 对 不 可 变 类 型 (例如 元 组 ) 进行 序列 化 ， 将 该 元 组 
转换 为 可 以 轻松 pickle 或 流 式 传输 的 字符 串 。 然 后 问题 转向 反 序列 化 一 一 通过 Python 标准 
库 中 的 ast (抽象 语法 树 ) 模块 ， 使 用 Literal_eval 国 数 评估 元 组 字符 串 得 到 Python 元 组 
类 型 ， 如 下 所 示 : 


import ast 






































def map(key, val): 
# 解析 复合 键 , 它 是 一 个 元 组 
key = ast.literal_eval(key) 


# 以 字符 串 写 新 的 键 

return (str(key), val) 
随 着 键 和 值 越 来 越 复 杂 ， 你 也 得 考虑 使 用 其 他 序列 化 数据 结构 了 ， 尤 其 是 那 种 更 紧凑 的 、 
能 减少 网 络 流量 或 能 转换 为 字符 串 值 以 确保 安全 性 的 数据 结构 。 例 如 ， 结 构 化 数据 的 常见 
表示 形式 是 Base64 编码 的 JSON 字符 串 ， 因 为 它 很 紧凑 ， 仅 使 用 ASCI 字符 ， 并 且 很 容 
易 用 标准 库 进 行 序列 化 和 反 序 列 化 ， 如 下 所 示 : 


import json 
import base64 
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def serialize(data): 





:次 


问 数据 ( 键 或 值 ) 的 Base64 编 码 的 JSON 表 示 
return base64.b64encode(json.dumps(data)) 
def deserialize(data): 
解码 Base64 编 码 的 JSON 数 据 
return json.loads(base64.b64decode(data)) 


但 使 用 复杂 的 序列 化 表示 时 要 小 心 ， 通 常 需要 权衡 序列 化 的 计算 复杂 度 与 它 所 需 的 空间 。 
许多 类 型 的 并 行 算法 更 适合 使 用 元 组 字符 串 或 制 表 符 分 隔 格式 ， 实 现 起 来 更 快 、 更 简单 ， 
如 果 能 管理 好 键 在 计算 中 的 传递 过 程 更 能 事半功倍 。 在 下 一 节 中 ， 我 们 将 看 到 MapReduce 
和 Spark 中 常见 的 基于 键 的 计算 模式 。 


5.1.2 键 空 间 模式 

可 以 使 用 键 计算 的 概念 管理 数据 集 及 其 关系 。 然 而 ， 键 也 是 计算 的 主要 部 分 。 因 此 ， 除 了 

数据 之 外 ， 键 也 必须 被 管理 。 本 节 将 探讨 影响 键 空间 的 几 种 模式 ， 特 别 是 爆炸 (explode)、 

过 滤 、 变 换 和 恒 等 (identity) 模式 。 这 些 常 见 模式 通过 键 和 值 之 间 的 关联 关系 来 构造 更 大 

的 模式 并 完成 算法 。 

以 下 示例 的 主角 是 一 个 订单 数据 集 ， 甚 中 键 是 订单 ID 、 客 户 ID 和 时 间 惟 ， 值 是 订单 所 购 

买 产品 的 商品 统一 代码 (universal product code，UPC) 列表 ， 如 下 所 示 : 
1001，1063457，2014-09-16 12:23:33，098668259830，098668318865 


1002，0171488，2014-12-11 03:05:03，098668318865 
1003, 1022739, 2015-01-03 13:01:54, 098668275427,098668331789,，098668274321 


1. 键 空 间 变 换 

最 常见 的 基于 键 的 运算 是 输入 键 的 域 的 变换 ， 在 map 和 reduce 中 均 可 进行 。 在 map 期 间 
变换 键 空 间 会 导致 数据 在 聚合 期 间 重新 分 区 (划分 )， 而 在 reduce 期 间 变 换 键 空间 可 用 于 
重组 输出 (或 后 续 计算 的 输入 )。 最 常见 的 变换 函数 是 直接 赋值 、 复 合 、 分 割 和 键 值 换 位 。 


直接 赋值 丢弃 了 输入 的 键 (通常 被 完全 忽略 )， 从 输入 值 或 别 的 来 源 (例如 随机 的 键 ) 构 
造 新 键 。 思 考 一 下 从 文本 、CSYV 或 JSON 加 载 原始 或 半 结 构 化 数据 的 情况 。 在 这 种 情况 
下 ， 输 入 键 是 行 或 文档 ID， 通 常 因 为 某 些 特 定 于 数据 的 值 而 被 丢弃 。 

如 上 一 节 所 述 ， 复合 及 其 相反 运算 分 割 管理 复合 键 。 复 合 构 建 复合 键 ， 或 向 复合 键 添加 新 
的 元 素 ， 能 增加 键 关 系 的 面 ， 分 割 拆 分 复合 键 ， 而 只 使 用 其 中 一 小 部 分 。 通 常 ， 值 也 能 被 
复合 和 分 割 ， 复 合 键 从 拆 分 值 接收 新 的 数据 (反之 亦 然 )， 以 确保 没有 数据 丢失 。 此 外 ， 
也 可 以 通过 复合 或 分 割 ， 丢 弃 不 需要 的 数据 或 删除 无 关 的 信息 。 


键 值 换 位 交换 键 和 值 ， 是 一 种 常见 模式 ， 特 别 是 在 链 式 的 MapReduce 作业 或 依赖 于 中 间 聚 
合 (特别 是 groupby) 的 Spark 操作 中 。 例 如 ， 为 了 通过 值 而 不 是 键 对 数据 集 进 行 排序 ， 必 
须 先 在 map 中 将 键 和 值 换 位 ， 执 行 sortByKey 或 者 利用 MapReduce 中 的 shuffle 和 sort， 然 
后 在 reduce 或 另 一 个 map 中 重新 换 位 。 
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来 看 一 个 按照 每 个 订单 中 的 产品 数量 和 日 期 为 订单 排序 的 作业 ， 这 将 使 用 之 前 学 过 的 所 有 





键 空间 变换 方法 ， 
# 将 订单 加 载 到 一 个 RDD ,解析 CSV 


orders = sc.textFile("orders.csv").map(split) 





# 键 分 配 :(orderid, customerid, date), products 
orders = orders.map(lambda r: ((r[0]，r[1]，r[2])，r[3:])) 


# 计算 订单 大 小 ,并 将 键 拆 分 为 orderid 和 date 
orders = orders.map(Lambda (k, v): ((k[0], parse_date(k[2])), len(v) 


# 交换 键 和 值 ,排序 
orders = orders.map(Lambda (k, v): ((v, k[1]), k[0])) 


# 根据 键 将 订单 排序 


orders = orders.sortByKey(ascending=False) 














# 再 次 交换 键 和 值 ,以 便 再 次 使 用 订单 ID 作为 键 
orders = orders.map(Lambda (k,v ): (v, k)) 








HH 


# 根据 订单 大 小 和 日 期 ,获取 前 16 个 订单 ID 


print orders.take(10) 








)) 


这 个 例子 对 于 所 需 完成 的 任务 可 能 有 点 元 长 ， 但 它 确 实 演示 了 如 下 每 种 类 型 的 变换 。 


(1) 如 第 4 章 讨论 的 ， 首 先 使 用 split 方法 从 一 个 CSV 文件 中 加 载 数据 集 。 


(2) 此 时 的 orders 仅仅 是 一 个 列表 集合 ， 因 此 将 值 分 解 为 ID 和 日 期 ， 将 它们 分 配 为 键 ， 将 





产品 列表 作为 值 ， 关 联 键 与 值 。 





(3) 下 一 步 是 获取 产品 列表 的 长 度 (订购 的 产品 数量 )， 并 使 用 一 个 包装 了 datetime. 


strptime 日 期 格式 的 闭 包 来 解析 日 期 。 请 注意 ， 此 方法 拆 分 了 复合 键 并 
这 其 实 没 有 必要 。 














删除 了 客户 ID， 


(4) 为 了 将 订单 按 大 小 排序 ， 需 要 将 订单 大 小 的 值 和 键 换 位 ， 还 要 将 日 期 从 键 中 分 割 出 来 ， 





以 便 也 可 以 按 日 期 排序 。 
(5) 执行 排序 后 ， 键 值 重新 换 位 ， 以 便 可 以 查看 每 个 订单 的 大 小 和 日 期 。 


以 下 片段 演示 了 第 一 条 记录 在 经 过 Spark 作业 中 的 每 个 map 时 发 生 的 变换 : 








"1001, 1063457, 2014-09-16 12:23:33,098668259830，098668318865" 
. [1001, 1063457, 2014-09-16 12:23:33，098668259830，098668318865] 


. ((1001, 1063457, 2014-09-16 12:23:33)，[098668259830，098668318865] ) 


. ((2, datetime(2014, 9, 16, 12, 23, 33)), 1001) 


0 
1 
2 
3. ((1001, datetime(2014, 9, 16, 12, 23, 33), 2) 
4 
5. (1001, (2, datetime(2014, 9, 16, 12, 23, 33))) 


经 过 这 一 系列 变换 ， 客 户 端 程序 就 可 以 按 订单 大 小 和 日 期 获取 前 10 个 订单 ， 并 在 分 布 式 








计算 后 将 它们 打印 出 来 。 
2. 爆炸 mapper 


爆炸 mapper 针对 单个 输入 键 生成 多 个 中 间 键 值 对 。 一 般 来 说 ， 这 是 通过 结 
它 根 据 空格 拆 分 





shift) 和 将 值 拆 分 为 多 个 部 分 来 实现 的 。 正 如 第 2 章 中 的 单词 计数 示例 ， 




















4 合 键 移 位 (key 
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行 ， 将 输入 mapper 中 的 单个 行 号 / 行 对 输出 为 儿 个 新 的 键 值 对 ， 即 单词 /1 。 通 过 将 值 按 组 
成 部 分 划分 并 且 重 新 将 键 分 配给 它们 ， 爆 炸 mapper 还 可 以 生成 许多 中 间 对 。 
在 此 示例 中 ， 可 以 按 订单 展开 产品 列表 ， 得 到 订单 /产品 对 ， 如 下 面 的 代码 所 示 : 

def order_pairs(key, products): 


# 返回 订单 id/ 产 品 对 的 列表 


pairs = [] 





























for product in products: 
pairs.append((key[0], product)) 


return pairs 


orders = orders.flatMap(order_pairs) 


将 这 个 mapper 应 用 到 输入 数据 集 ， 会 产生 如 下 输出 : 


1001, 098668259830 
1001, 098668318865 
1002, 098668318865 
1003，098668275427 
1003，098668331789 
1003，098668274321 


注意 在 RDD 上 使 用 的 flatMap 操作 ， 这 是 专 为 爆炸 map 设计 的 。 它 的 操作 与 常规 map 相 
似 ， 但 该 函数 产生 一 个 序列 而 不 是 单个 项 ， 然 后 该 序列 被 链接 成 单个 集合 〈 而 不 是 列表 的 
RDD)。 在 MapReduce 和 Hadoop Streaming 中 不 存在 这 样 的 限制 ， 一 个 map 国 数 可 以 发 射 
任意 数量 的 对 (或 者 根本 不 发 送 )。 


3. 过 滤器 mapper 
尽管 本 章 后 面 会 更 详细 地 讨论 过 滤 (特别 是 统计 抽样 )， 但 鉴于 它 与 键 的 操作 相关 ， 此 处 
也 得 先 说 两 句 。 过 滤 通 第 对 限制 reduce 阶段 执行 的 计算 量 至 关 重 要 ， 特 别 是 在 大 数据 环境 
中 。 它 还 可 将 同一 数据 流 的 计算 划分 为 两 条 路 径 ， 这 是 专 为 超大 数据 集 设 计 的 一 种 大 型 算 
法 ， 是 面向 数据 的 分 支 方法 。 想 想 看 在 只 选择 了 2014 年 订单 的 情况 下 ， 如 何 扩展 订单 示 
例 (使 用 Spark) : 


from functools import partial 





















































def year_filter(item, year=None): 
key, val = item 
if parse_date(key[2]).year == year: 
return True 
return False 


orders = orders.filter(partial(year_filter, year=2014)) 


Spark 提供 了 一 个 过 滤 操 作 ， 它 接受 一 个 函数 并 转换 RDD， 只 保留 函数 返回 True 的 元 素 。 
此 示例 展示 了 闭 包 的 高 级 用 法 以 及 可 以 获取 任何 年 份 的 通用 过 滤器 函数 。partial 函数 创 
建 一 个 闭 包 ， 其 year_filter 的 参数 year 始终 为 2014， 支 持 更 强大 的 功能 。MapReduce 
代码 类 似 ， 但 需要 更 多 的 逻辑 : 
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def YearFilterMapper (Mapper): 


def _ init (self, year, **kwargs): 
super(YearFilterMapper, self)._ init _(**kwargs) 
self.year = year 


def map(self): 
for key, value in self: 
if parse_date(key[2]).year == self.year: 
self.emit(key, value) 


if _ name == "main 
mapper = YearFilterMapper(2014) 
mapper .map() 


mapper 什么 也 不 发 射 也 完 侈 没 问 题 。 因 此 ， 用 于 过 滤器 mapper 的 逻辑 是 仅 在 满足 条 件 时 
才 发 射 。 通 过 使 用 基于 类 的 Mapper， 并 用 想 要 过 滤 的 年 份 简 单 地 实例 化 类 ， 可 以 获得 刁 
partial 方法 相同 的 灵活 性 。 更 高 级 的 Spark 和 MapReduce 应 用 程序 可 能 从 运行 作业 的 命 
令 上 接收 年 份 作为 输入 。 


最 后 一 个 订单 记录 (订单 1003) 被 删除 了 ， 因 为 它 是 2015 年 的 订单 ， 过 滤 产 生 的 其 他 数 
据 与 输入 相同 : 


1001, 1063457, 2014-09-16 12:23:33，098668259830，0986683188625 
1002, 0171488, 2014-12-11 03:05:03，098668318865 


4. 恒 等 模式 

MapReduce 中 的 最 后 一 个 常用 键 空间 模式 (一 般 不 用 于 Spark 中 ) 是 恒 等 (identity) 图 
数 。 它 只 是 一 个 传递 ， 能 使 恒 等 mapper 或 者 恒 等 reducer 返回 与 输入 相同 的 值 (就 好 像 
在 恒 等 函 数 f(x) = x 中 样 ) 恒 等 mapper 通常 用 于 在 数据 流 中 执行 多 个 reduce。 当 在 
MapReduce 中 使 用 恒 等 reducer 时 ， 该 作业 等 同 于 在 键 空间 上 进行 排序 。 恒 等 mapper 和 恒 
等 reducer 的 简单 实现 如 下 所 示 : 


class IdentityMapper (Mapper): 





























def map(self): 
for key, value in self: 
self.emit(key, value) 


class IdentityReducer (Reducer): 


def reduce(seLf ) : 
for key, values in self: 
for vaLue in values: 
self.emit(key, value) 


二 MapReduce 使 用 了 最 优 的 shuffle 和 sort， 因 而 恒 等 reducer 通常 更 常见 一 些 。 不 过 恒 
等 mapper 也 非常 重要 ， 特 别 是 在 链 式 MapReduce 作业 中 ， 一 个 reducer 的 输出 必须 立即 被 
第 二 个 reducer 再 次 reduce。 事 实 上 ， 正 是 因为 MapReduce 的 操作 是 分 阶段 的 ， 所 以 才 需 
要 恒 等 reducer。 在 Spark 中 ， 因 为 RDD 被 延迟 评估 ， 所 以 不 需要 恒 等 团 包 。 
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5.1.3 pair 与 stripe 


数据 科学 家 习惯 用 表示 为 向 量 、 和 矩阵 或 数据 框 的 数据 。 线 性 代数 计算 往往 针对 单 核 机 器 进 
行 了 优化 ， 而 机 器 学 习 中 的 算法 使 用 低级 数据 结构 (如 numpy 库 中 的 多 维 数 组 ) 来 实现 。 
这 些 结构 虽然 紧凑 ， 但 因为 数据 的 量 级 实在 太 大 ， 所 以 无 法 在 大 数据 环境 中 使 用 。 相 反 ， 
矩阵 通常 有 两 种 表示 方式 : pair 和 stripe。pair 和 stripe 都 是 基于 键 的 计算 。 


为 了 理解 这 一 点 ， 试 着 为 基于 文本 的 语料库 建立 单词 共 现 矩 阵 (和 单词 计数 一 样 ， 这 是 演 
示 pair 和 stripe 的 典型 问题 。 ) 使 用 单词 共 现 创 建 的 语言 的 统计 模型 可 用 于 机 器 翻译 、 句 
子 生 成 等 大 量 应 用 。 


如 图 5-2 所 示 的 单词 共 现 矩 阵 是 大 小 为 NxN 的 矩阵 ， 其 中 N 是 语料库 的 词汇 量 (单词 的 种 
数 )。 每 个 单元 现 ) 包含 词 w 和 词 wj 同时 出 现在 句子 、 段 落 、 文 档 或 其 他 固定 长 度 窗口 中 
的 次 数 。 这 个 矩阵 很 稀 纹 ， 特 别 是 采用 了 积极 的 停 用 词 过 滤 之 后 ， 因 为 大 多 数 单词 通常 仅 
与 非常 少 的 其 他 词 共 现 。 
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Block 1 
The fast cat 
wears no hat. 


Block 2 

The cat in 
the hat ran 
fast. 














图 5-2: 演示 同一 文本 块 ( 例 如 句子 ) 中 词 条 同时 出 现 频 率 的 单词 共 现 矩阵 


pair 方 法 将 矩阵 中 的 每 个 单元 映射 到 特定 值 ， 其 中 词 对 是 复合 键 1,j。 因 此 ，reducer 对 每 
个 单元 的 值 进行 处 理 ， 以 产生 最 终 的 单元 挨 单元 的 和 矩阵。 这 是 一 种 合理 的 方法 ， 它 产生 
的 输出 中 的 每 个 到 ;被 单独 计算 并 存储 。 使 用 求 和 reducer，mapper 如 下 所 示 (有 关 使 用 
NLTK 进行 文本 处 理 和 分 词 的 更 多 信息 ， 请 参见 第 3 章 ) : 


from itertools import combinations 












































class WordpairsMapper (Mapper): 


def map(self): 





注 1: Jimmy Lin, Chris Dyer, Data-Intensive Text Processing with MapReduce (http://bit.ly/1 PcgEmB). 
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for docid, document in self: 
tokens = list(self.tokenize(document)) 
for pair tin combinations(sorted(tokens), 2): 
self.emit(pair, 1) 


这 个 方法 的 重 中 之 重 是 使 用 内 置 的 sorted 函数 对 令 牌 进行 字典 排序 。 在 对 称 矩 阵 〈 殉 , 等 
于 万; 的 矩阵 ) 中 ， 必 须 为 词 对 排序 ， 否 则 键 (b,a) 和 (a,b) 不 会 reduce 在 一 起 。 请 注意 ， 
itertools 库 中 的 combinations 国 数 保持 其 输入 列表 的 排序 。 输 入 如 下 所 示 : 


"See Spot run，run Spot, run!" 
单词 共 现 和 矩阵 的 词 对 聚合 结果 如 下 所 示 : 


(run，run)，6 
(run，see)，3 
(run, spot), 6 
(see, run), 3 
(see, spot), 2 
(spot, run), 6 
(spot, see), 2 
(spot, spot), 1 


虽然 pair 方法 易于 理解 和 实现 ， 但 是 它 产 生 了 许多 中 间 对 。 这 些 中 间 对 必须 在 网 络 上 
传输 ， 这 一 过 程 在 MapReduce 的 shuffle 阶段 和 sort 阶段， 以 及 groupByKey 操作 将 值 
shuffle 到 RDD 各 分 区 的 期 间 均 有 发 生 。 此 外 ，pair 方法 不 大 适用 于 需要 整 行 (或 列 ) 数 
据 的 计算 。 

stripe 方法 最 初 被 设想 为 一 种 减少 中 间 对 的 数量 和 网 络 通信 的 优化 手段 ， 从 而 让 作业 运行 
得 更 快 。 不 过 它 很 快 也 成 为 一 种 重要 的 工具 ， 应 用 于 许多 需要 针对 一 个 元 素 执行 快速 计算 
(例如 相对 频率 或 其 他 统计 运算 ) 的 算法 中 。stripe 方法 没有 使 用 词 对 ， 而 是 在 mapper 中 
为 每 个 条 目 构造 关联 数组 (Python 字典 )， 并 作为 值 发 射 : 


from collections import Counter 










































































class WordStripeMapper (Mapper): 


def map(self): 
for docid, document in self: 
tokens = list(self.tokenize(document)) 


for i, term in enumerate(tokens ) : 
# 为 每 个 条 目 创建 新 的 stripe 


stripe = Counter() 





for j, token in enumerate(tokens ) : 
# 不 计算 该 条 目 与 本 身 的 共 现 
Lh 
stripe[token] += 1 

















# 发 射 条 目 和 stripe 
self.emit(term, stripe) 


class StripeSumReducer (Reducer): 
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def reduce(seLf) : 
for key, values in self: 
stripe = Counter() 


# 将 所 有 计数 器 相 加 
for vaLue in values: 
for token, count in value.iteritems(): 
# 为 每 一 个 令 牌 分 别 累加 stripe 
stripe[token] += count 


self.emit(key, stripe) 


stripe 的 mapper 和 reducer 有 点 复杂 。 在 mapper 中 需要 对 所 有 令 牌 进行 两 层 册 套 人 循环， 并 
且 必 须 确保 该 条 目 不 对 其 自身 计数 。 内 置 的 enumerate 函数 允许 我 们 在 两 层 循环 中 跟踪 条 
目的 索引 ， 跳 过 相同 的 索引 而 不 是 条 目 (如 果 条 目 在 文本 中 重复 出 现 ， 则 该 条 目 实际 上 可 
能 共 现 )。collections 库 中 的 Counter 是 一 个 有 用 的 数据 结构 ， 它 本 质 上 是 字典 ， 默 认 值 
是 int。 然 后 ，reducer 需要 对 字典 中 的 每 个 元 素 进 行 求 和 ， 计 算 mapper 中 所 有 计数 器 的 
总 数 。 虽 然 输入 相同 ， 但 现在 的 输出 更 紧凑 : 

run, ((run, 6), (see, 3), (spot, 6)) 


see, ((run, 3), (spot, 2)) 
spot, ((run, 6), (see, 2), (spot, 1)) 


stripe 方法 不 仅 在 其 表示 上 更 紧凑 ， 而 且 也 生成 更 少 、 更 简单 的 中 间 键 ， 从 而 优化 了 数据 
的 sort、shuffle 等 方面 。 然 而 ，stripe 对 象 更 庞大 ， 在 处 理 时 间 和 序列 化 方面 的 开销 都 更 
大 ， 特 别 是 当 stripe 非常 大 时 。stripe 的 大 小 有 上 限 ， 尤 其 当 共 现 和 矩阵 非常 密集 时 ， 可 能 需 
要 大 量 的 内 存 来 记录 一 个 条 目的 数据 。 


介绍 完 pair 和 stripe， 键 计算 的 讨论 也 就 结束 了 。 正 如 你 看 到 的 ， 大 多 数 大 数据 计算 都 靠 
基于 键 的 计算 来 提供 和 维护 数据 集 之 间 的 关系 ， 以 确保 数据 能 合理 分 布 在 不 同 的 mapper 
和 reducer 上 。 在 Spark 和 MapReduce 上 执行 大 规模 计算 需要 我 们 换个 角度 思考 标准 计算 
的 传统 方法 ， 因 为 数据 的 规模 实在 太 大 。 下 一 市 将 基于 这 种 思维 转变 ， 提 出 具体 的 设计 模 
式 ， 这 些 模式 通常 用 于 分 解 以 实现 最 后 一 英里 计算 。 


5.2 设计 模式 


设计 模式 是 软件 设计 中 的 一 个 特殊 术语 ， 是 指针 对 特定 编程 挑战 的 通用 、 可 重用 解决 方 
案 。 设 计 模 式 通 常 不 限定 语言 ， 不 仅 指 模式 的 实现 细节 ， 更 指 设计 或 构造 策略 。 最 第 
见 的 软件 设计 模式 可 能 是 在 Web 开发 中 非常 流行 的 模型 -视图 -控制 器 (model-view- 
controller，MVC) 模式 ， 可 以 使 用 Ruby、Java 等 各 种 语言 实现 。 

与 之 类 似 ， 我 们 也 可 以 探索 函数 式 设计 模式 ， 用 于 解决 MapReduce 和 Spark 中 的 并 行 计算 
问题 。 这 些 模式 展示 了 可 用 于 更 复杂 或 特定 于 领域 的 角色 的 通用 策略 和 原则 。 事 实 上 ， 我 
们 已 经 在 用 于 计算 单词 共 现 的 pair 和 stripe 模式 中 看 过 一 个 例子 。pair 和 stripe 都 可 以 应 用 
于 更 一 般 的 计算 。 

在 《MapReduce 设计 模式 》 中 ，Donald Miner 和 Adam Shook 探索 了 MapReduce 作业 的 23 
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种 常见 设计 模式 。 他 们 将 模式 大 致 分 为 如 下 几 类 。 

概要 
根据 聚合 、 分 组 、 统 计 度 量 、 索 引 或 数据 的 其 他 高 级 视图 ， 提 供 大 型 数据 集 的 摘要 
视图 。 









































过 滤 

基于 一 组 固定 的 条 件 创建 数据 的 子 集 或 样本 ， 并 且 不 以 任何 方式 修改 原始 数据 。 
数据 组 织 

将 记录 重组 为 有 意义 的 模式 ， 不 一 定 使 用 分 组 。 此 任务 适合 作为 后 续 计算 的 第 一 步 。 
连接 

从 不 同 来 源 将 相关 数据 收集 到 一 个 统一 的 整体 。 
元 模式 

为 复杂 或 优化 过 的 计算 实现 作业 链 和 作业 合并 。 这 类 模式 是 与 其 他 模式 相关 联 的 模式 。 
输入 和 输出 


使 用 数据 处 理 模 式 对 输入 源 的 数据 进行 转换 ， 以 输出 到 一 个 不 同 的 输出 源 。 输 入 源 和 输 
出 源 可 以 位 于 HDFS， 也 可 以 古 其 他 数据 源 。 


本 节 将 详细 探讨 MapReduce 和 Spark 的 概要 和 过 滤 技 术 ， 并 概述 MapReduce 数据 流 和 作 
业 链 的 构造 。 我 们 将 用 几 个 具体 应 用 来 揭示 这 些 模式 背后 的 秘密 ,但 有 一 点 非常 显 而 易 
见 : 这 些 技术 通常 将 输入 数据 分 解 或 转换 成 用 于 最 后 一 英里 计算 的 较 小 数据 源 。 


5.2.1 概要 

概要 尝试 用 尽 可 能 简单 的 方法 描述 尽 可 能 多 的 关于 数据 集 的 信息 。 我 们 习惯 于 阅读 内 容 提 
要 (executive summary)， 它 突出 元 长 文件 的 主要 内 容 ， 而 不 涉及 细节 。 与 之 类 似 ， 描 述 性 
统计 数据 试图 通过 测量 观测 数据 的 集中 趋势 (平均 值 、 中 值 )、 分 散 情 况 (标准 差 )、 分 布 
形状 ( 偏 度 ) 或 变量 之 间 的 依赖 关系 (相关 性 ) 来 概括 观察 数据 之 间 的 关系 。 

基于 键 的 计算 对 数据 进行 分 组 〈 另 一 种 形式 的 概要 )， 聚 合 某 个 通常 能 描述 键 的 值 (这 可 
能 有 价值 )， 然 后 概要 计算 就 进入 了 下 一 步 。 基 于 键 的 计算 可 以 是 简单 的 分 析 ， 例 如 计算 
最 不 准点 的 机 场 或 航空 公司 ; 也 可 以 是 稍 复杂 些 的 分 析 ， 例 如 推断 天 气 、 距 离 或 其 他 因素 
对 机 场 或 航空 公司 的 影响 。 在 很 多 情况 下 ， 概 要 只 是 更 大 的 概括 和 预测 的 第 一 步 ， 例 如 作 
为 语言 模型 的 单词 共 现 的 计算 ， 或 描述 概率 分 布 的 频率 分 析 。 

从 原理 上 讲 ，MapReduce 和 Spark 是 应 用 一 系列 的 概要 ， 将 有 具体 的 数据 形式 (每 个 单独 的 
记录 ) 转换 为 更 一 般 的 形式 。 大 体 来 说 ， 我 们 最 熟悉 的 概要 具备 以 下 操作 特征 : 

。 聚合 (集合 到 单个 值 ， 如 平均 值 、 总 和 或 最 大 值 ) 

。 索引 (将 值 映射 到 值 集合 的 函数 映射 ) 

。 分 组 (将 集合 选择 或 划分 成 多 个 集合 ) 

在 本 节 中 ， 我 们 将 探索 聚合 和 索引 的 模式 (通过 之 前 讨论 的 基于 键 的 技术 可 以 轻松 实现 分 
组 )。 有 具体 来 说 ， 我 们 将 探索 数据 集 的 并 行 统计 描述 ， 例 如 Pandas 中 的 describe 命令 以 
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及 如 何 实现 聚合 ， 然 后 ， 将 探索 两 种 索引 技术 : 倒 排 索引 和 通过 词 频 - 逆 文 档 频 率 (term 
frequency-inverse document frequency，TF-IDF) 的 文档 概要 。 


1. 聚合 

MapReduce 和 Spark 上 下 文中 的 聚合 函数 拥有 两 个 输入 值 并 生成 一 个 输出 值 ， 它 也 满足 交 
换 律 和 结合 律 ， 因 此 可 以 并 行 计算 。 回 顾 一 下 ， 交 换 律 表明 顺序 对 二 元 运算 没有 影响 ， 例 
如 对 给 定 的 运算 史 来 说 ，a 史 b = b % a; 结合 律 表示 无 论 输 入 如 何 分 组 ， 计 算 都 是 相同 
的 , 即 (a 吕 bj)sc=a (bsc)。 加 法 和 乘法 是 满足 交换 律 和 结合 律 的 ， 但 减法 和 除 
法 不 是 。 

聚合 一 般 是 对 一 个 集合 应 用 操作 以 创建 较 小 集合 〈 聚 集 在 一 起 ) ， 而 reduce 通常 被 认为 是 
将 集合 reduce 为 单个 值 的 操作 。 聚 合 也 可 以 被 认为 是 一 系列 更 小 的 reduce 组 成 的 应 用 程 
序 。 在 这 种 情况 下 ， 为 什么 结合 性 和 交换 性 是 实现 并 行 不 可 或 缺 的 条 件 也 就 显而易见 了 : 
给 定 一 个 reduce a 多 b 多 c 多 d， 由 于 网 络 或 其 他 物理 约束 导致 shuffle 的 结果 不 确定 ， 这 
意味 着 顺序 不 能 有 影响 。 结 合 性 允许 一 个 进程 计算 a 4 b， 另 一 个 进程 计算 c %*% d， 其 中 一 
个 进程 发 送 它们 的 结果 以 执行 最 终 的 吕 操作 。 


想 想 标准 数据 集 描 述 量 : 平均 值 、 中 值 、 众 值 、 最 小 值 、 最 大 值 、 总 和 。 其 中 ， 总 和 、 最 
小 值 和 最 大 值 都 容易 实现 ， 因 为 它们 都 满足 结合 律 和 交换 律 ， 但 平均 值 、 中 值 和 众 值 不 
是 。 对 中 值 和 众 值 来 说 ,通常 需 要 先进 行 某 种 排序 ， 而 由 于 涉及 除法 ,分 组 计算 平均 值 会 
产生 精度 损失 。 虽 然 这 些 计算 有 并 行 的 近似 算法 ， 但 更 重要 的 是 意识 到 ， 在 执行 这 些 类 型 
的 分 析 时 应 格外 小 心 。 我 们 将 使 用 一 个 MapReduce 作业 来 描述 整个 数据 集 ， 而 不 是 单独 讨 
论 这 些 计算 。 

2. 统计 概要 

现在 ， 可 以 通过 两 个 关键 概念 来 分 析 处 理 数据 集 。 首 先 ， 使 用 键 作 为 关系 来 定义 有 意义 的 
数据 子 集 ， 其次， 使 用 多 种 方法 ， 包 括 作 业 链 、 键 空间 管理 或 pair、stripe 等 机 制 ， 同 时 实 
现 多 个 计算 。 通 过 将 实例 按键 分 组 并 描述 属性 〈 类 似 于 Pandas 中 的 describe 命令 ) ， 可 以 
简化 大 型 数据 集 并 对 其 执行 概要 分 析 。 

我 们 已 经 见 过 了 按键 计算 均值 和 计数 的 例子 ， 这 些 类 型 的 分 析 通 常 最 先 运行 ， 从 而 对 较 大 
数据 集 有 初步 了 解 。 特 别 是 对 高 速 变化 的 大 数据 (以 惊人 速度 变化 的 数据 ) 来 说 ， 运 行 定 
期 描述 性 作业 可 以 让 你 了 解 已 经 发 生 的 变化 以 及 它们 是 如 何 变化 的 。 我 们 将 在 一 个 批 次 中 
一 次 性 运行 所 有 的 6 个 作业 ， 包 括 计算 总 数 、 总 和 、 平 均值 、 标 准 差 和 范围 〈 最 小 值 和 最 
大 值 )， 而 不 是 为 每 个 描述 性 指标 单独 实现 一 个 MapReduce 作业 〈 代 价 高 昂 ) 。 

这 时 的 基本 策略 是 ， 为 所 有 按键 进行 的 计算 映射 一 个 计数 器 值 的 集合 。 然 后 ，reducer 将 每 
个 操作 分 别 应 用 于 值 集合 中 的 每 个 项 目 ， 使 用 每 个 项 目 来 计算 最 终 输 出 (例如 平均 值 取决 
于 总 数 和 总 和 )。 这 样 的 mapper 的 基本 结构 如 下 所 示 : 


class StatsMapper(Mapper ) : 













































































































































































def map(self): 
for key, value in self: 
try: 
value = float(value) 
self.emit(key, (1, value, value ** 2)) 





except ValueError: 
# 无 法 解析 ,忽略 
pass 
在 这 种 情况 下 ， 直 接 进行 reduce 的 三 种 操作 是 计算 总 数 、 总 和 和 平方 和 。 因 此 ， 该 
mapper 针对 每 个 键 发 射 一 次 ，1 用 于 计数 ， 值 用 于 求 和 ， 值 的 平方 用 于 平方 和 。reducer 
使 用 总 数 及 总 和 来 计算 平均 值 ， 使 用 值 计算 范 围 ， 使 用 总 数 、 总 和 以 及 平方 和 计算 标准 
差 ， 如 下 所 示 : 


from ast import literal_eval as make_tuple 
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class StatsReducer(Reducer ) : 


def reduce(seLf ) : 
for key, values in self: 
# 解析 mapper 发 送 过 来 的 值 


values = make_tuple(values) 


count =0 

delay = 0.0 
square = 0.0 
minimum = None 
maximum = None 


for value in values: 
count += value[0] 
deLay += value[1] 
square += value[2] 
if minimum is None or value[1] < minimum: 
minimum = value[1] 


if maximum is None or value[1] > maximum: 
maximum = value[1] 


mean 
stddev 


delay / float(count) 
math.sqrt((square-(delay**2)/count)/count-1) 


self.emit(key, (count, mean, stddev, minimum, maximum)) 


这 个 作业 举例 说 明了 如 何 将 复杂 数据 类 型 作为 MapReduce 的 输出 和 中 间 值 使 用 ， 这 是 迈 
向 高 级 分 析 方法 的 第 一 步 。reducer 使 用 ast.literal_eval 反 序 列 化 机 制 来 解析 值 元 组 ， 然 
后 对 数据 值 执行 单个 循环 〈 你 必须 将 所 有 值 加 载 到 内 存 中 ， 例 如 作为 列表 ， 以 进行 多 次 饥 
历 ) 来 计算 各 种 和 、 最 小 值 和 最 大 值 。 


MapReduce 中 的 reducer 可 以 访问 与 单个 键 相 关联 的 所 有 值 的 可 友 代 对 象 ， 而 在 Spark 中 ， 
必须 对 这 个 计算 稍 作 修改 。Spark 中 的 reduce 不 能 应 用 以 集合 作为 输入 的 操作 ， 因 而 你 
必须 每 一 次 将 操作 应 用 于 输入 中 的 一 对 元 素 。 又 因为 第 一 次 应 用 的 结果 是 第 二 次 应 用 的 
第 一 个 输入 ， 所 以 操作 必须 满足 结合 律 和 交换 律 。 例 如 ， 对 于 给 定 输入 [5，2，7]， 你 
不 能 简单 地 将 sum 应 用 于 集合 ， 而 要 这 样 使 用 add: add(add(5，2)，7)。 因 此 ， 必 须 为 
mapper 输出 的 值 添 加 最 小 值 和 最 大 值 计 数 器 ， 以 分 别 记 录 reduce 过 程 中 的 最 小 值 和 最 大 
值 ， 如 下 所 示 : 
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def counters(item): 


将 键 值 对 解析 为 键 和 概要 计数 器 
计数 器 格式 : (count，totaL，square，minimum，maximum) 
key，value = item # 分 解 item 元 组 
try : 

value = float(value) 

self.emit(key, (1, value, value ** 2, value, value)) 
except ValueError: 

# 无 法 解析 ,忽略 


pass 


def aggregation(first, second): 


对 两 个 (key，counter) 执 行 概要 聚合 
Count1，totaL1，squares1，min1，max1 = first 
count2, total2, squares2, min2, max2 = second 
minimum = min((min1, min2)) 

maximum = max((max1, max2)) 

count = Count1 + count2 

total = totall + total2 

Squares = squares1 + Squares2 


return (count, total, squares, minimum, maximum) 


def summary(aggregate): 


根据 聚合 结果 ,计算 概要 统计 


(key，(count，totaL，square，minimum，maximum)) = aggregate 


mean 
stddev 


total / float(count) 
math.sqrt((square-(total**2)/count)/count-1) 


return (key, (count, mean, stddev, minimum, maximum)) 


def main(sc): 


Spark 应 用 程序 的 主要 分 析 过 程 





# 给 定 一 个 键 值 对 数据 集 ,映射 到 counters 


dataset = dataset.map(counters) 





# 根据 键 执行 概要 聚合 
dataset = dataset.reduceByKey(aggregation) 
dataset = dataset.map(summary) 


# 将 结果 写 入 磁盘 
dataset.saveAsTextFile("dataset-summary") 


reduceByKey 函数 的 规则 使 得 Spark 作业 中 的 数据 流 不 太一 样 。 我 们 无 法 通过 迭代 跟踪 最 小 











值 和 最 大 值 ， 而 只 能 在 计算 结果 中 标注 出 最 后 看 到 的 最 小 值 和 最 大 值 ， 并 在 继续 reduce 时 
传播 它们 。 因 此 ， 我 们 不 能 在 聚合 期 间 简 单 地 执行 最 终 计算 ， 而 是 需要 另 一 个 map 在 聚合 
后 的 RDD (小 得 多 ) 上 完成 概要 计算 。 


这 个 describe 示例 提供 了 一 种 有 用 的 模式 ， 可 以 同时 计算 多 个 特征 并 将 它们 作为 向 量 返 
回 。 这 种 模式 经 常 被 重用 ， 在 机 器 学 习 上 下 文中 尤其 如 此 ， 因 为 可 能 需要 多 个 过 程 生成 训 
练 所 需 的 实例 (例如 二 次 计算 、 归 一 化 、 插 补 、 连 接 或 更 多 具体 的 机 器 学 习 任 务 )。 理 解 
MapReduce 聚合 和 Spark 聚合 之 间 的 差异 ， 对 跟踪 错误 以 及 在 MapReduce 和 Spark 之 间 进 
行 代码 移植 大 有 帮助 。 


5.2.2 索引 

与 基于 聚合 的 概要 技术 不 同 ， 索 引 采 用 多 对 多 的 方法 。 聚 合 将 多 个 记录 收集 到 单个 记录 
中 ， 而 索引 将 多 个 记录 与 一 个 或 多 个 索引 相关 联 。 在 数据 库 中 ， 索 引 是 用 于 快速 查找 的 
专用 数据 结构 ， 通 常 是 二 又 树 (binary-tree，B-Tree)。 在 Hadoop/Spark 中 ， 索 引 也 能 发 
挥 类 似 的 功能 ， 但 是 它们 不 会 被 维护 和 更 新 ， 而 通常 会 成 为 需要 快速 查找 的 下 游 计 算 的 
第 一 步 。 

文本 索引 在 Hadoop 算法 “万 神殿 ”中 地 位 特殊 ， 这 是 由 于 Hadoop 最 初 被 用 于 创建 搜索 应 
用 程序 。 当 仅 处 理 一 小 部 分 文档 时 ， 它 可 以 像 grep 一 样 扫描 文档 来 查找 搜索 项 。 然 而 ， 随 
着 文档 和 查询 的 数量 增加 ， 再 使 用 这 种 方法 就 不 合适 了 。 在 本 节 中 ， 我 们 将 看 到 两 种 类 型 
的 基于 文本 的 索引 : 常见 的 倒 排 索引 以 及 词 频 - 逆 文 档 频 率 (TF-IDF)。TF-IDF 是 与 索引 
相关 联 的 数字 统计 量 ， 通 常用 于 机 器 学 习 。 

1. 倒 排 索引 

倒 排 索引 是 从 索引 项 到 文档 集合 中 的 位 置 的 映射 〈 与 从 文档 到 索引 项 映射 的 前 向 索 
引 相 反 )。 在 全 文 搜索 中 ， 索 引 项 是 搜索 项 ， 通 常 是 去 除了 停 用 词 〈 例 如 在 搜索 中 
无 意义 的 常见 词 ) 的 词 或 数字 。 大 多 数 搜索 引擎 还 采用 了 某 种 词 干 提取 (stemming) 
和 词 形 还 原 (lemmatization) : 具有 相同 含义 的 多 个 词 被 分 类 到 单个 词类 (例如 


“running”“ran”“runs” 由 单个 词语 “ran” 索 引 )。 


最 常见 的 倒 排 索引 用 例 是 搜索 : 它 让 搜索 算法 能 快速 检索 出 要 排列 和 返回 的 文档 子 集 ， 
而 免 于 扫描 每 个 文档 。 例 如 ， 要 想 查 询 “running bear ， 可 以 用 索引 查找 包含 搜索 项 
“running” 和 包含 搜索 项 “bear” 的 文档 的 交集 。 然 后 采用 简单 的 排名 系统 来 返回 搜索 项 紧 
挨 着 ， 而 不 是 相距 很 远 的 文档 (现代 搜索 排名 系统 显然 比 这 要 复杂 得 多 )。 


然而 ， 搜 索 示 例 可 以 被 一 般 化 到 机 器 学 习 上 下 文 。 索 引 项 不 一 定 是 文本 ， 它 可 以 是 一 条 更 
长 的 记录 的 任意 部 分 。 此 外 ， 使 用 索引 来 简化 或 加 快 下 游 计算 (如 排名 ) 的 任务 也 很 党 
见 。 根 据 索引 的 创建 方式 ， 可 以 在 性 能 和 准确 率 之 间 进 行 权 衡 ， 或 者 在 给 定 随 机 索引 的 情 
况 下 ， 在 精确 率 和 召回 率 之 间 进 行 权衡 。 


来 考虑 某 个 预 处 理 后 的 文本 ， 其 中 文档 ID 和 行 号 作为 键 ， 行 文本 作为 值 。 这 种 预 处 理 方 
式 可 以 用 于 所 有 用 户 驱动 的 文本 ， 如 留言 板 或 评论 ， 但 在 这 里 ， 我 们 将 它 用 于 莎士比亚 戏 
剧 全 集 。 具 体 来 说 ， 我 们 要 创建 一 个 人 物 关 联 索 引 。 因 此 ， 不 能 将 人 物 映 射 到 已 有 的 行 ， 
而 是 要 针对 人 物 和 起 始 行 进行 概要 分 析 ， 以 便 看 出 人 物 的 出 场 顺序 。 语 料 库 中 的 每 一 行 表 
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示 如 下 : 


hamlet@15261 HAMLET 0, that this too too solid flesh would melt 
hamlet@15261 Thaw and resolve itself into a dew! 


行 的 第 一 部 分 是 title@lineno (戏剧 名 @ 行 号 ) 标识 符 ， 然 后 是 一 个 TAB 字符 (\t)、 人 
物 的 名 字 、 第 二 个 TAB 字符 和 剧本 中 的 一 行文 本 。 如 果 相 同 的 人 物 连 续 说 了 多 行 ， 则 用 
两 个 TAB 字符 将 标识 符 与 文本 分 开 。 为 了 创建 一 个 人 物 的 倒 排 索引 ， 我 们 将 使 用 一 个 恒 
等 reducer 和 下 面 的 mapper (注意 Spark 中 很 容易 实现 相同 的 算法 ) : 


class CharacterIndexMapper(Mapper ) : 


def map(self): 
for row in self: 
row = row.split("\t") # 使 用 制 表 符 拆 分 
if not len(row) >= 3: continue # 确保 数据 格式 


if row[1] != "": 
# 如 果 存 在 人 物 ,发 射 名 字 和 docid/lineno 
self.emit(row[1], row[0]) 


这 个 莎士比亚 人 物 索 引 示例 说 明了 索引 的 儿 个 关键 点 。 首 先 ， 索引 项 可 以 
是 任意 的 (这 里 是 人 物 名 称 ) ， 其 次 ， 这 种 算法 虽然 非常 简单 ， 但 它 高 度 依 
赖 于 输入 数据 的 结构 例如， 我 们 知道 要 搜索 TAB 分 片 以 找到 人 物 名 称 ) ; 
最 后 ， 这 个 示例 还 使 用 了 我 们 之 前 看 到 的 一 些 map 和 reduce 模式 一 一 恒 等 
reducer。 继 续 发 展 的 话 ， 这 个 数据 结构 可 以 创建 人 物 之 间 的 对 话 图 ， 更 可 以 
用 于 分 析 人 物 所 在 的 人 际 圈 或 人 物 相似 性 。 最 关键 的 一 点 是 ， 倒 排 索 引 通常 
是 下 游 计算 的 第 一 步 。 











人 物 索 引 作业 的 输出 是 人 物 名 称 的 列表 ， 每 个 人 名 对 应 该 人 物 每 次 开始 说 话 的 行 的 列表 ， 
这 可 以 当 作 查找 表 或 作为 其 他 类 型 分 析 的 输入 使 用 。 

2.TF-IDF 

词 频 - 逆 文 档 频率 〈TF-IDF) 可 能 是 目前 最 常用 的 基于 文本 的 概要 形式 ， 也 是 基于 文本 的 
机 器 学 习 中 最 常用 的 文档 特征 。TF-IDF 是 一 种 指标 ， 定 义 词 条 (单词 ) 和 作为 较 大 语料库 
一 部 分 的 文档 之 间 的 关系 。 具 体 来 说 ， 它 给 出 该 词 在 其 他 文档 中 的 相对 频率 ， 从 而 试 着 定 
义 该 词 对 于 特定 文档 的 重要 性 。 

词 频 ##f, 是 给 定 词 条 i 在 文档 /中 出 现 的 次 数 ， 通 常用 于 衡量 该 词 与 该 文档 的 相关 性 。 以 
一 份 关 于 美国 政治 的 文件 为 例 : 一 方面 ， 我 们 可 能 会 说 像 “ 民 主 ”(democracy) 或 “ 选 
举 ”(election) 这 样 的 词语 比 “ 和 鲁 米 那 ”(luminal) 这 样 的 词语 出 现 得 更 频繁 ， 因 此 它 
们 与 文档 的 整体 论述 更 相关 ， 另 一 方面 ， 词 频 本 身 将 过 度 强调 常见 的 词语 ， 如 “说 ” 
(speaking) 一 一 在 给 定 组 合 语料库 中 ， 该 词 会 出 现 于 科学 和 政治 类 文档 中 。 因 此 ， 词 条 i 
的 文档 频率 df， 即 该 词 条 在 多 少 文档 中 出 现 过 ， 用 于 弥补 词 频 的 片面 性 。 也 就 是 说 ， 包 含 
词 条 的 文档 数 与 文档 总 数 N 的 比例 的 倒数 的 对 数 与 词 频 相 乘 。TF-IDF 分 数 高 ， 则 给 定 词 经 
常 在 目标 文档 中 出 现 ， 但 不 常 在 语料库 的 其 他 位 置 出 现 。 文 档 j 中 的 词 条 i 的 TF-IDF 如 下 
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所 示 : 


Wi 二 vi x log 








VN 
中 
这 种 方法 最 初 用 于 文档 的 主题 建 模 ， 这 是 一 种 试图 将 主题 相同 的 文档 相互 关联 的 聚 类 形 
式 。 不 难看 出 ， 若 文档 共享 高 TF-IDF 值 的 词 ， 它 们 则 可 能 彼此 相关 ， 因 为 这 些 词 条 不 党 
出 现在 语料库 的 其 余部 分 。 出 于 类 似 的 原因 ，TF-IDF 现在 被 广泛 应 用 于 其 他 机 器 学 习 任 
务 ， 包 括 分 类 、 自 动 问答 ， 其 至 非 结构 化 数据 的 社交 网 络 或 Web 分 析 中 。 


在 索引 中 加 入 该 算法 ， 原 因 和 加 入 简单 的 倒 排 索引 类 似 : 它 创 建 了 通常 用 于 下 游 计算 和 机 
器 学 习 的 数据 结构 。 此 外 ， 这 个 更 复杂 的 示例 突出 了 其 他 几 节 只 简单 涉及 的 内 容 : 使 用 作 
业 链 实现 单个 算法 。 考 虑 到 这 一 点 ， 让 我 们 来 看 看 TF-IDF 的 MapReduce 实现 。 

我 们 的 策略 是 使 用 键 空间 模式 在 三 个 作业 中 传播 所 需 的 数据 : 第 一 个 作业 使 用 简单 的 单词 
计数 来 计算 每 个 文档 的 词 频 ， 该 单词 计数 还 维护 该 词 的 文档 ID， 第 二 个 作业 计算 该 词 一 夫 
出 现在 多 少 文档 中 ， 最 后 一 个 作业 使 用 前 两 个 作业 传播 到 最 后 的 信息 计算 TF-IDF。 第 一 个 
作业 如 下 所 示 : 


class TermFrequencyMapper(Mapper ) : 





















































def _ init (self, *args, **kwargs): 





初始 化 分 词 器 和 停 用 词 
super(TermFrequencyMapper, self)._ iinit (*args, **kwargs) 


self.stopwords = set() 
self.tokenizer = re.compile(r'\W+') 


# 从 文本 文件 读 取 停 用 词 
with open('stopwords.txt') as stopwords: 
for line in stopwords: 
self.stopwords.add(line.strip()) 


def tokenize(self, text): 
对 一 行文 本 进行 分 词 和 规范 化 (只 产生 非 数字 ,标点 和 空 字 符 串 的 非 停 用 词 ) 
for word in re.split(self.tokenizer, text): 
if word and word not in self.stopwords and word.isalphal(): 


yield word 


de 


re 


map(self): 
for docid, line in self: 
# 对 每 一 行 分 词 ,并 发 射 每 个 (word，docid) 
for word in self.tokenizel(line): 
self.emit((word, docid), 1) 


class SumReducer(Reducer): 


def reduce(seLf ) : 
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for key, values in self: 
total = sum(int(count[1]) for count in values) 
self.emit(key, total) 


为 了 计算 文档 中 的 词 ， 不 能 简单 地 使 用 空格 分 割 行 ， 而 是 要 使 用 正则 表达 式 对 文本 进行 
分 词 这 可 能 会 因为 索引 需要 而 变 得 更 复杂 。 我 们 还 从 stopwords.txt 文件 中 读 取 了 停 用 
词 列表 ， 该 文件 需要 包含 在 作业 中 。 因 此 ， 我 们 的 分 词 方法 简单 地 使 用 正则 表达 式 进行 拆 
分 ， 并 过 滤 掉 停 用 词 、 数 字 和 标点 符号 。 更 高 级 的 分 词 器 也 可 以 提取 词 干 ， 或 者 实现 归 一 
化 〈 例 如 全 部 变 为 小 写 ) 。 第 一 个 作业 发 射 (term，docid) 为 键 、 频 率 为 值 的 元 组 。 

第 二 个 作业 由 一 个 mapper 和 一 个 reducer 组 成 ， 如 下 所 示 : 


class DocumentTermsMapper(Mapper ) : 




















def map(self): 
for Line in self: 
key, tf = line.split(self.sep) # 将 每 一 行 拆 分 成 键 值 对 
word，docid = make_tuple(key) # 解析 元 组 字符 串 
seLf.emit(word，(docid，tf，1)) # 发 射 词 和 带 计 数 器 的 数据 











class DocumentTermsReducer(Reducer ) : 


def reduce(seLf) : 
for word, values in self: 
# 将 values 加 载 到 内 存 ,进行 多 次 处 理 和 解析 


values = [make_tupLe(vaLue) for value in values] 





# 第 一 次 处 理 :计算 词 条 的 文档 频率 


terms = sum(int(item[2]) for item in values) 


# 第 二 次 处 理 : 为 与 docid 关 联 的 每 一 个 word 发 射 一 个 值 
for docid, tf, num in values: 
self.emit((word, docid), (int(tf), terms)) 


此 作业 的 mapper 又 是 一 个 计数 mapper， 用 于 求 词 条 的 文档 频率 的 和 ， 它 还 改变 了 键 空间 ， 
维护 针对 该 文档 的 词 频 并 将 文档 DD 添加 到 值 中 。 这 样 ， 我 们 可 以 按 词 reduce， 其 中 每 个 
值 都 对 应 一 个 文档 。 因 此 ，reducer 需要 遍历 数据 两 次 : 一 次 求 和 ， 男 一 次 执行 每 个 文档 的 
键 空间 更 改 。 为 了 做 到 这 一 点 ， 必 须 将 元 组 (docid，tf，count) 缓存 在 内 存 中 ， 使 用 列表 
推导 从 生成 器 加 载 数 据 。 如 果 许 多 文档 都 包含 该 词 (如 “the” 这 样 的 高 频 词 )， 这 个 计算 
也 许 不 能 在 内 存 中 进行 。 也 正 因 如 此 ， 停 用 词 列表 对 TF-IDF 的 计算 才 如 此 重要 。 其 他 解 
决 方法 包括 : 将 中 间 数 据 临时 存储 到 磁盘 ， 再 实现 一 个 中 间 MapReduce 作业 ， 一 个 作业 用 
于 求 词 条 的 文档 频率 的 和 ， 另 一 个 用 于 改变 键 空间 : 


class TFIDFMapper (Mapper): 









































def _ init (self, *args, **kwargs): 
self.N = kwargs.pop("documents") 
super(TFIDFMapper, self)._ iinit (*args, **kwargs) 


def map(self): 
for line in self: 
key, val = map(make_tuple, line.split(self.sep)) 
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tf 
if n > 


n = (int(x) for x in val) 
0: 


idf = math.Log(seLf.N/n) 
self.emit(key, idf*tf) 


最 后 一 个 作业 是 一 
reducer 发 射 的 (word 
为 int 的 元 组 ， 并 且 





个 只 有 map 的 作业 ， 因 为 我 们 已 经 有 了 计算 用 的 键 一 一 由 上 一 个 





，docid) 对 。 使 用 恒 等 reducer 就 完全 能 够 搞定 。 我 们 简单 地 将 行 解析 





只 要 频率 大 于 零 ， 就 计算 TF-IDF。 请 注意 ， 需 要 一 条 额外 的 信息 一 一 


语料库 中 的 文档 数量 ， 它 在 这 个 过 程 中 没有 参与 计算 。 

这 个 任务 虽然 看 似 很 复杂 ， 但 是 将 执行 过 程 设想 为 数据 流 就 能 好 很 多 : 随 着 计算 结果 片段 
的 产生 ， 它 们 被 添加 到 数据 流 中 。 键 / 值 选 择 由 计算 中 的 下 一 步骤 向 发 。 而 且 最 重要 的 是 ， 
这 个 计算 仅仅 遍历 了 一 次 原始 输入 ， 所 以 它 支 持 作 业 的 线性 依赖 。TEF-IDEF 计算 的 Spark 实 
现 也 需要 这 种 数据 流 思维 模式 ， 如 下 所 示 : 


def tokenize(document, stopwords=None): 


分 词 并 返回 ( 











docid，word) 和 一 个 计数 


def line_ tokenizer(lines): 


逐 行 分 词 的 内 部 生成 器 


for Line in lines: 
for word in re.split(tokenizer, line): 


if word and word not in stopwords.vaLue and word.isaLpha() : 
yield word 


docid, lines = document 


return [ 


((docid, word), 1) for word in line tokenizer(lines) 


] 


def term frequency(v1, v2): 


拆 分 复杂 的 值 , 计 算 词 频 


docid, tf, 


count1 = v1 


_docid, tf, count2 = v2 
return (docid, tf, count1 + count2) 


de 


下 


tfidf(args) 


给 定 ((word， 


docid)，(tf,n)) 参 数 ,计算 TF-IDF 


请 注意 ,必须 提前 定义 N_D0CS, 它 是 语料库 中 的 文档 数 (n 是 word 的 文档 频率 ) 


(key, (tf, 
if n > 0: 





n)) = args 


idf = math.log(N_DOCS/n) 


return 


def main(sc): 


(key, idf*tf) 
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spark 应 用 程序 字 的 主要 分 析 过 程 


# 从 数据 集 加 载 停 用 词 
with open('stopwords.txt', 'r') as words: 
stopwords = frozenset([ 
word.strip() for word in words.read().split("\n") 


]) 
# 将 停 用 词 广播 到 集群 


stopwords = sc.broadcast(stopwords) 








# 第 一 阶段 : 分 词 并 计算 文档 频率 

# 请 注意 : 假设 有 一 个 包含 (docid，text) 对 的 语料库 
GE corpus.flatMap(partial(tokenize, stopwords=stopwords)) 
docfreq = docfreq.reduceByKey(add) 











# 第 二 阶段 :计算 词 频 ,然后 执行 键 空间 更 改 
trmfreq = docfreq.map(Lambda (key, tf): (key[1], (key[0], tf, 1))) 
trmfreq = trmfreq.reduceByKey(term frequency) 
trmfreq = trmfreq.map( 
Lambda (word, (docid, tf, n)): ((word, docid), (tf, n)) 
) 


# 第 三 阶段 :为 每 个 (word,document) 对 计算 TF-IDF 

tfidfs = trmfreq.map(tfidf) 
Spark 作业 同样 从 磁盘 加 载 停 用 词 ， 然 后 将 其 广播 到 集群 的 剩余 部 分 。 然 后 ， 就 可 以 对 默 
认 参 数 为 停 用 词 广播 值 的 tokenize 偏 国 全 让 全 人 
是 因为 tokenize 国 数 将 为 文档 中 的 每 一 行 生成 一 个 令 牌 计数 列表 (需要 使 用 内 部 的 Line_ 
tokenizer 国 数 )。 最 后 ， 将 Spark 实现 的 es 和 tfidif 函数 映射 到 每 个 文档 。 
请 注意 ， 因 为 reduceByKey 被 调用 了 两 次 ， 并 且 需 要 在 tfidfs RDD 上 应 用 某 个 最 后 的 动 
作 ， 所 以 此 Spark 作业 同样 共有 三 个 数据 流 ， 和 MapReduce 作业 一 样 。 


5.2.3 过 滤 

过 滤 是 粗 粒 度 地 减少 下 游 计 算数 据 的 主要 方法 之 一 。 与 聚合 通过 宏观 概览 分 组 来 缩小 输入 
空间 不 同 ， 过 滤 意 在 通过 去 除 不 需要 的 记录 来 缩小 计算 空间 。 在 键 空间 一 市 中 ， 我 们 探 
讨 了 应 用 于 mapper 的 过 滤 。 事 实 上 ， 因 为 mapper 非常 适合 执行 过 渡 ， 所 以 许多 过 滤 任 务 
常 使 用 只 有 map 的 作业 (不 需要 reducer)。 这 可 以 视 为 通过 谓词 或 选择 进行 过 滤 ， 类 似 于 
SQL 语句 中 的 where 子 句 。 


另外 一 些 过 滤 任 务 使 用 reducer， 收 集 具有 代表 性 的 数据 集 或 根据 值 进行 过 滤 。 这 种 过 渡 
包括 查找 最 大 的 n 个 值 或 最 小 的 n 个 值 、 去 重 或 子 选择 。 分 析 中 非常 常见 的 过 滤 任 务 是 抽 
样 : 创建 一 个 较 小 的 、 具 有 代表 性 的 数据 集 ， 该 数据 集 相对 于 较 大 的 数据 集 分 布 良 好 ( 取 
决 于 你 期 望 实现 的 分 布 类 型 )。 开 发 中 使 用 面向 数据 的 子 样本 验证 机 器 学 习 算 法 (例如 交 
又 验证 ) 或 者 进行 其 他 统计 计算 (例如 寡 运 算 )。 


我 们 通常 可 以 将 过 滤 实 现 为 一 个 函数 ， 它 接受 一 条 记录 作为 输入 。 如 果 评 佑 返回 tue， 则 
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发 射 记录 ， 否 则 丢弃 记录 。 本 市 将 探讨 无 序 的 最 大 /最 小 n 个 元 素 、 抽 样 技术 ,以 及 经 布 





1. top n 记 录 


隆 过 滤器 提高 性 能 后 的 高 级 过 滤 。 


top n 记录 (以 及 相反 的 bottom n 记录 ) 方法 是 一 个 大 数 比 较 过 滤器 ， 它 需要 一 个 mapper 








和 一 个 reducer。 其 基本 原 








里 是 让 每 个 mapper 产生 其 top n 个 项 目 ， 然 后 reducer 将 从 











mapper 产生 的 项 目 中 同样 选择 top n 个 项 目 。 如 果 n 相对 较 小 (至 少 与 数据 集 的 其 余部 分 
相 比 ) ， 单 个 reducer 应 该 能 够 轻松 处 理 该 计算 ， 因 为 每 个 mapper 最 多 产生 n 条 记录 : 





import bisect 








class TopNMapper (Mapper): 


def _ init (self, n, *args, **kwargs): 


self.n=n 


super(TopNMapper, self). init (*args, **kwargs) 


def map(self): 
items = [] 


for value in self: 
# 维护 有 序 的 ttems 列 表 


bisect.insort(items, value) 


for item in items[-self.n:]: 
# 从 mapper 发 射 前 n 个 值 


self.emit(None, item) 


class TopNReducer(object): 


def _ init (self, n, *args, **kwargs): 


self.n=n 


super(TopNReducer, self). init (*args, **kwargs) 


def reduce(self): 
items = [] 


for _, values in self: 
for vaLue in values: 
bisect.insort(items, value) 


for item in items[-self.n:]: 

# 从 mapper 发 射 前 n 个 值 

self.emit(None, item) 
这 里 的 mapper 和 reducer 都 使 用 了 bisect 模块 将 值 按 升序 插入 列表 。 为 了 获得 最 大 的 个 
值 ， 使 用 了 负 索 引 的 切片 ， 从 而 选择 有 序列 表 中 的 最 后 n 个 值 。 要 得 到 最 小 的 个 值 ， 可 
以 简单 地 分 片 取出 列表 中 的 前 n 个 值 。 使 用 None 作为 键 可 确保 仅 使 用 单个 reducer。 请 注 
意 ，Spark 拥有 丰富 的 RDD API， 你 可 以 使 用 top 和 take0rdered 动作 ， 而 不 必 自 己 实现 。 
请 注意 ， 对 于 Spark 和 MapReduce， 为 了 能 进行 排序 ， 需 要 记录 是 可 比较 的 ， 这 需要 进行 
严格 的 解析 ; 例如 ， 在 Python 中 ，'14'> 22 为 True。 


这 种 方法 最 大 的 好 处 是 不 需要 对 整个 数据 集 进行 完整 的 排序 ， 相 反 ， 每 个 mapper 对 它们 
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自己 的 数据 子 集 进行 排序 ， 而 reducer 仅 看 到 mapper 数量 n 倍 的 数据 。 这 段 代 码 可 以 通过 
几 种 方式 进行 优化 ， 但 主要 优化 与 所 使 用 的 数据 结构 有 关 。 下 一 市 将 研究 如 何在 bisect 模 
块 上 使 用 堆 (heap) 来 实现 类 似 的 功能 。 


2. 简单 随机 抽样 

简单 随机 抽样 是 数据 集 的 子 集 ， 数 据 集 的 每 条 记录 属于 该 子 集 的 可 能 性 相同 。 在 这 种 情况 
下 ， 评估 函 数 不 关 心 记录 的 内 容 或 结构 ， 而 是 利用 某 种 随机 数 生成 器 来 评估 是 否 发 射 记 
录 。 但 问题 来 了 ， 如 何 确保 每 个 元 素 被 选中 的 可 能 性 相同 呢 ? 

如 果 需 要 的 样本 不 是 必须 大 小 为 n， 而 是 包含 百 分 之 多 少 的 记录 就 好 ， 第 一 种 方法 是 简单 
地 使 用 随机 数 生成 器 来 产生 数字 ， 并 将 其 与 期 望 的 羡 值 大 小 进行 比较 。 随 机 数 生成 器 可 用 
值 的 范围 与 圈 值 将 共同 决定 大 约 发 射 百 分 之 多 少 的 记录 。 一 般 来 说 ， 随 机 数 生成 器 返回 的 
值 在 0~1， 因 此 与 百分比 的 直接 比较 将 产生 预期 的 结果 ! 例如 ， 如 果 想 要 从 数据 集中 采样 
20%， 可 以 写 如 下 的 mapper: 


import random 
















































































让 








class PercentSampLeMapper(Mapper ) : 


def _ init (self, *args, **kwargs): 
self.percentage = kwargs.pop("percentage") 
super(PercentSampleMapper, self)._ iinit _(*args, **kwargs) 


def map(self): 
for _, val in self: 
if random.random() < self.percentage: 
self.emit(None, val) 


if _ name _ == '_ main _': 


mapper = PercentSampleMapper(sys.stdin, percentage=0.20) 
mapper .map() 


使 用 percentage 关键 字 参 数 初 始 化 PercentSampleMapper ， 该 参数 从 _init_ 中 的 通用 关 
键 字 参数 中 取出 。 此 作业 将 返回 原始 数据 集 的 20% 左 右 ， 因 为 每 条 记录 产生 的 随机 数 小 
于 0.2 的 可 能 性 相同 ， 所 以 随机 数 小 于 0.2 发 生 的 可 能 性 只 大 约 为 调用 次 数 的 20%。 如 果 
这 个 作业 运行 时 只 有 mapper 而 没有 reducer， 许 多 小 文件 将 被 写 入 到 磁盘 ， 文 件 的 数量 与 
mapper 的 数量 相同 。 使 用 一 个 恒 等 reducer 将 确保 这 些 值 都 被 收集 到 单个 文件 中 。 

然而 ， 如 果 想 要 一 个 大 小 精确 为 n 的 样本 呢 ? 为 了 确保 每 种 方法 机 会 均等 ， 必 须 进行 n 次 
随机 选择 ， 每 次 选择 一 个 元 素 ， 而 不 进行 替换 ， 以 确保 每 条 记录 被 选中 的 机 会 均等 。 一 种 
方法 是 打 乱 记录 ， 选 择 0~N-1 的 一 个 随机 数 ， 其 中 N 是 记录 数 ， 并 发 射 在 该 索引 处 的 记 
录 。 然 后 再 次 打 乱 ， 选 择 0~N-2 的 随机 数 , 依 此 类 推 。 





















































统计 学 家 可 能 倾向 于 采用 蔷 水 库 抽 样 (reservoir sampling) 技术 ， 它 能 够 在 
单 进程 上 下 文中 对 数据 流 或 大 型 数据 集 进行 高 效 采样 。 一 般 来 说 ， 当 你 在 
mapper 中 使 用 任何 概率 分 布 时 ， 你 都 必须 小 心 ， 因 为 不 能 保证 mapper 在 多 
次 运行 中 看 到 相同 的 数据 ， 也 不 能 保证 每 个 mapper 获得 相同 数量 的 数据 ， 
更 不 能 保证 映射 过 程 保 持 一 个 特定 的 顺序 。 这 些 不 确定 性 会 导致 一 些 mapper 
预期 的 可 能 性 过 高 或 过 低 。 对 此 (正确 ) 的 反应 应 该 是 将 工作 移动 到 一 个 
reducer 或 聚合 上 进行 ， 但 这 样 做 的 话 ， 在 集群 上 多 进程 执行 的 优势 可 能 会 不 
复 存 在 ! 虽然 有 分 布 式 的 蕾 水 库 抽 样 算法 ， 但 是 要 谨 记 ， 同 一 算法 的 串 行 和 
并 行 实现 往往 可 能 过 然 不 同 ! 







































































为 了 并 行 化 打 乱 (shuffle) 方法 ,我 们 可 以 想象 将 一 幅 扑 克 牌 平均 发 给 了 四 位 玩家 。 如 果 
想 要 抽取 4 张 牌 ， 并 且 让 每 张 牌 被 选中 的 可 能 性 相等 ， 可 以 简单 地 让 每 位 玩家 洗 他 们 各 自 
手中 的 牌 ， 然 后 每 个 人 给 你 发 4 张 牌 ， 然 后 ， 你 从 这 16 张 牌 中 选择 前 4 张 。 但 如 果 你 把 
牌 从 空中 掷 给 每 位 玩家 ， 而 不 是 平均 发 给 他 们 ， 则 每 位 玩家 得 到 的 牌 数 可 能 不 均等 ， 但 这 
种 方法 仍然 能 确保 每 张 牌 被 选中 的 可 能 性 相等 。 这 时 问题 就 变 成 了 : 该 如 何 使 用 Hadoop 
来 打 乱 记录 ， 以 便 获 得 更 好 的 性 能 ? 


答案 是 在 mapper 中 为 每 个 记录 分 配 一 个 0~1 的 随机 淫 点 数 。 随 后 ，mapper 会 发 射 前 n 个 
记录 。 同 样 ，reducer 也 只 会 发 射 它 从 mapper 接收 的 前 n 个 记录 。 虽 然 此 机 制 仍然 只 允许 
单个 reducer， 但 是 该 reducer 获取 的 是 数据 的 有 限 子 集 (例如 mapper 数量 的 n 倍 ) ， 子 集 
应 该 能 够 放 入 reducer 的 内 存 中 。 因 为 每 行 拥有 nm 个 最 大 随机 数 之 一 的 概率 相等 ， 所 以 能 
获得 一 个 随机 样本 : 


import random, heapq 

















class SampleMapper (Mapper): 


def _ init (self, n, *args, **kwargs): 
self.n=n 
super(SampleMapper, self)._init_ _(*args, **kwargs) 


def map(self): 
# 将 堆 初 始 化 成 一 个 包含 n 个 6 的 列表 


heap = [0 for x in xrange(self.n)] 


for vaLue in self: 
# 维护 一 个 堆 , 只 包含 最 大 的 n 个 值 
heapq.heappushpop(heap, (random.random(), value)) 
for item in heap: 
# 发 射 抽样 数据 


self.emit(None, item) 
class SampleReducer(Mapper): 
def _ init (self, n, *args, **kwargs): 


self.n=n 
super(SampleReducer, self)._ init_ _(*args, **kwargs) 
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def reduce(seLf) : 
# 将 堆 初 始 化 为 一 个 包含 n 个 6 的 列表 


heap = [0 for x in xrange(self.n)] 


for _, values in self: 
for value in values: 
heapq.heappushpop(heap, make_tuple(value)) 


for item in heap: 
# 发 射 抽样 数据 
self.emit(None, item[1]) 
我 们 本 可 以 像 使 用 top n 记录 方法 时 一 样 使 用 bisect 模块 ， 但 是 为 了 获取 多 样 性 ， 我 们 
使 用 堆 数据 结构 在 内 存 中 维持 一 个 只 有 nm 个 最 大 随机 值 的 列表 。 这 进一步 减 小 了 mapper 
和 reducer 的 内 存 需 求 (对 reducer 尤为 明显 )， 使 每 次 只 有 n 个 值 保存 在 内 存 中 。 我 们 的 
mapper (reducer 也 类 似 ) 初始 化 了 一 个 长 度 n 值 为 零 的 列表 。heapq.heappushpop 国 数 将 
新 值 压 入 到 堆 中 ， 然 后 弹出 最 小 值 (而 且 还 比 顺序 调用 heapq.push 和 heapq.pop 快 得 多 )。 


3. 布 隆 过 滤 
布 隆 过 滤器 是 一 种 高 效 的 概率 型 数据 结构 ， 用 于 执行 集合 成 员 资格 测试 。 布 隆 过 滤器 与 其 
他 评估 函数 没有 什么 不 同 ， 除 了 一 点 : 它 必 须 进 行 预先 计算 以 收集 “ 热 值 ”( 排 除 集 的 成 
员 ) 一 一 需要 过 滤 的 值 。 布 隆 过 滤器 的 好 处 在 于 ， 它 很 紧 竣 (方便 将 大 集合 传输 到 集群 上 
的 每 个 mapper)， 并 且 能 快速 测试 成 员 资 格 。 


但 是 ， 布 隆 过 滤器 可 能 会 误 判 (false positive) ; 换 句 话说 ， 它 会 把 不 属于 集合 的 元 素 判 断 
为 属于 集合 。 不 过， 它 能 保证 不 会 排除 任何 属于 集合 的 元 素 一 一 没有 漏 报 (false negative)。 
因此 ， 表 达 式 x in bloon 就 意味 着 “x 可 能 在 集合 中 ”或 “x 绝对 不 在 集合 中 ”。 这 也 决 
定 了 布 隆 过 滤器 的 构造 ， 因 为 你 要 在 过 滤器 集合 的 大 小 、 数 据 中 可 能 有 多 少 元 素 ， 以 及 
mapper 和 reducer 的 内 存 容量 之 间 进 行 权 衡 。 、 你 能 采用 不 同 程度 的 模糊 性 。 在 构 
造 大 多 数 布 隆 过 滤器 时 ， 可 以 设置 误 判 的 概率 国 值 ， 这 会 使 布 隆 过 滤器 增 大 或 缩小 。 


使 用 布 隆 过 滤器 的 第 一 步 是 构建 它 。 布 隆 过 滤器 对 输入 数据 应 用 几 个 散 列 函 数 ， 然 后 根据 
散 列 值 设置 位 数组 中 的 位 。 一 旦 构建 了 位 数组 ， 就 可 以 将 散 列 函 数 应 用 于 测试 数据 并 查看 
相关 位 是 否 为 1， 从 而 测试 成 员 资 格 。 根 据 一 定 的 规则 将 不 同 的 值 映射 到 构造 布 隆 过 谍 器 
的 reducer， 可 以 并 行 化 位 数组 的 构造 过 程 ， 位 数组 也 可 以 是 由 其 他 进程 维护 的 活动 的 版 本 
化 数据 结构 。 


在 这 个 例子 中 ， 我 们 将 使 用 第 三 方 库 pybloomfiltermmap， 可 以 通过 ptip 安装 。 虽 然 Python 
有 很 多 第 三 方 布 隆 过 滤器 库 ， 但 这 个 库 提 供 了 创建 可 配置 过 滤器 的 最 好 的 API。 来 思考 一 
个 例子 : 基于 推 文 是 否 包 含 词 条 和 用 户 名 和 白 名 单 中 的 标签 (#) 或 者 @ 回复 ， 决 定 是 否 包 
含 推 文 。 为 了 创建 布 隆 过 滤器 ， 从 磁盘 加 载 数 据 ， 并 将 布 隆 过 滤器 保存 到 一 个 mmap 文 
件 ， 如 下 所 示 : 


from pybloomfilter import BloomFilter 














































































































bloom = BloomFilter(1000000, 0.1, 'twitter.bloom') 





for prefix, path in (('#', 'hashtags.txt'), ('@', 'handles.txt')): 
with open(path, 'r') as f: 
for word in f: 
bloom.add(prefix + word.strip()) 


本 示例 创建 了 一 个 有 100 万 元 素 、 错 误 率 为 0.1 的 布 隆 过 滤器 。 它 在 底层 使 用 这 些 参 数 来 
选择 最 优 数 k〈 所 需 散 列国 数 的 数量 ) ， 以 保证 给 定 容量 下 的 错误 国 值 。 性 能 和 空间 也 存在 
折 中 一 一 容量 越 小 旦 错误 率 越 低 ， 需 要 的 散 列 函数 就 越 多 ， 计 算 也 就 越 慢 ;容量 越 大 ， 布 
隆 过 滤器 就 必须 越 大 。 从 磁盘 文件 读 取 标签 和 Twitter 句柄 〈 并 给 它们 加 上 适当 的 前 组 ) 
后 ， 布 隆 过 滤器 将 被 写 入 磁盘 上 一 个 名 为 twitter.bloom 的 文件 中 。 


在 Spark 中 使 用 它 : 


ELEMS = re.compile(r'[#@][\w\d]+') 


























def tweet filter(tweet, bloom=None): 
for elem in ELEMS.findall(tweet['text']): 
if elem in bloom.value: 
return True 


# 从 磁盘 加 载 布 隆 过 滤器 ,进行 并 行 化 


bloom = sc.broadcast(BloomFilter .open('twitter.bloom')) 





# 从 磁盘 加 载 ]SON 推 文 ,进行 解析 
tweets = sc.textFile('tweets').map(json.1loads) 
tweets = tweets.filter(partial(tweet filter, bloom=bloom)) 


我 们 的 推 文 过 滤器 是 使 用 functools.partial 函数 创建 的 ， 该 函数 创建 了 一 个 拥有 布 隆 过 
滤器 广播 变量 的 朵 包 ， 而 布 隆 过 滤器 是 从 驱动 程序 所 处 主机 的 磁盘 加 载 的 。tweet_fitter 
函数 使 用 一 个 正则 表达 式 提 取 所 有 标签 和 @ 回复 ， 然 后 检查 它们 是 否 在 布 隆 过 滤器 中 ; 
如 果 是 ， 则 返回 True， 从 而 保留 RDD 中 与 白 名 单 匹配 的 所 有 元 素 。 

布 隆 过 滤器 可 能 是 常用 于 Hadoop 分析 的 最 复杂 的 数据 结构 。 此 处 提 到 它 不 是 因为 它 的 复 
杂 性 ， 而 是 为 了 表明 性 能 和 正确 性 的 结合 将 如 何 影响 分 布 式 计算 。 作 为 实践 大 数据 的 数据 
科学 家 ， 你 会 发 现 随机 方法 能 助力 及 时 计算 ， 这 是 进一步 分 析 所 需要 的 。 


5.3 返 向 最 后 一 英里 分 析 


在 本 章 中 ， 我 们 研究 了 许多 数据 分 析 模 式 ， 从 键 计算 到 聚合 、 过 滤 的 常规 模式 。 这 里 面 有 
一 个 宏观 主题 : 将 数据 从 较 大 的 输入 分 解 为 较 小 的 、 更 易于 管理 的 输入 。 使 用 我 们 在 本 章 
中 讨论 的 工具 ， 本 节 将 讨论 端 到 端 预 测 模型 的 计算 策略 。 

许多 机 器 学 习 技 术 在 底层 使 用 广义 线性 模型 (generalized linear model，GLM) 来 估计 给 定 
输入 数据 和 误差 分 布 的 响应 值 (response variable) 。 最 常用 的 GLM 是 线性 回归 (还 有 逻辑 
回归 和 泊 松 回归 )， 为 模拟 因 变 量 了 和 一 个 或 多 个 自 变量 工 之 间 的 连续 关系 建 模 。 该 关系 
由 一 组 系数 和 一 个 误差 项 表示 如 下 : 


Y= ptBAt +hX,+e 
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虽然 只 轻描淡写 地 说 了 说 这 个 非常 重要 的 话题 ,但 是 必须 强调 的 是 ， 系 数 8 的 计算 是 将 模 
型 拟 合 到 现 有 数据 的 主要 目标 。 这 通常 通过 一 个 优化 算法 来 完成 一 一 根据 给 定 的 某 个 数据 
集 的 XY 和 了 的 观察 值 ， 该 算法 能 找到 一 组 最 小 化 错误 量 的 系数 。 请 注意 ， 线 性 回归 可 以 被 
认为 是 一 种 有 监督 机 器 学 习 方 法 ， 因 为 “正确 ”答案 ( 拟 合 模型 的 和 和 了 变量 ) 是 预先 已 
知 的 。 

普通 最 小 二 乘法 和 随机 梯度 下 降 这 样 的 优化 算法 是 迭代 的 ， 也 就 是 说 ， 它 们 要 多 次 遍历 数 
据 。 在 大 数据 环境 中 ， 每 次 优化 迭代 都 多 次 读 取 完整 数据 集 可 能 会 非常 耗 时 ， 在 按 需 分 
析 或 开发 中 尤其 明显 。Spark 在 MLlib 中 提供 的 分 布 式 机 器 学 习 算 法 和 内 存 计 算 让 情况 稍 
有 好 转 ， 具 体内 容 将 在 第 9 章 讨论 。 但 如 果 碰 上 极 大 的 数据 集 或 极 小 的 时 间 窗 口 ， 即 使 是 
Spark 也 需要 花费 很 长 时 间 ; 如 果 Spark 没有 你 想 要 实现 的 模型 或 分 布 式 算法 ， 那 么 分 析 
方法 的 选择 范围 将 因 分 布 式 编程 的 诸多 困难 而 受 限 。 


通用 的 解决 方案 是 贯穿 整 章 的 内 容 : 将 输入 数据 集 转换 为 更 小 的 数据 集 ， 让 它 可 以 在 内 存 
中 被 处 理 ， 从 而 达到 分 解 问题 的 目的 。 一 旦 数据 集 被 缩小 成 内 存 计算 ， 它 就 可 以 使 用 标准 
技术 进行 分 析 ， 然 后 在 整个 数据 集中 验证 。 对 于 线性 回归 ， 我 们 可 以 对 数据 集 进 行 简单 随 
机 抽样 ， 对 样本 执行 特征 提取 ， 构 建 线 性 模型 ， 然 后 通过 计算 整个 数据 集 的 均 方 误差 来 验 
证 模型 。 


5.3.1 模型 拟 合 


考虑 一 个 具体 的 例子 : 我们 有 一 个 新 闻 报 道 或 博文 的 数据 集 ， 现 在 要 预测 接 下 来 的 24 小 
时 内 的 评论 数量 。 针 对 网 络 仆 取 的 原始 HTML 页 面 ， 数 据 流 应 如 下 所 示 。 


(1) 解析 HTML 页 面 获取 元 数据 ， 并 将 主 文本 与 评论 分 开 。 

(2) 创建 一 个 从 时 间 惟 到 博文 评论 /评论 者 的 索引 。 

(3) 使 用 该 索引 为 模型 创建 实例 ， 实 例 是 一 篇 博文 以 及 24 小 时 请 动 窗口 内 的 评论 。 

(4) 将 实例 与 主 文本 数据 〈 评 论 和 博文 ) 连接 起 来 。 

(3) 提取 每 个 实例 的 特征 〈 例 如 ， 前 24 小 时 的 评论 数 、 博 文 长 度 、 从 窗口 到 发 布 时 间 之 间 
的 时 间 、bag of words 特征 、 星 期 几 ， 等 等 )。 

(6) 对 实例 特征 取样 。 
(7) 使 用 Scikit-Learn 或 Statsmodels 在 内 存 中 构建 一 个 线性 模型 。 

(8) 计算 整个 数据 集 的 实例 特征 的 均 方 误差 或 者 决定 系数 。 

该 数据 流 表明 ， 许 多 预 处 理 作业 仅 需 要 运行 一 次 或 儿 次 (例如 ， 特 征 提 取 需 要 在 整个 特征 
分 析 生 命 周 期 中 反复 运行 )。 然 而 ， 模 型 抽样 和 验证 过 程 可 以 例 行 运行 。 一 旦 启动 并 运行 
这 个 模型 ， 它 其 至 可 以 在 线 运行 ， 当 新 的 信息 被 馈送 到 数据 流水 线 中 时 ， 该 模型 重新 进行 
拟 合 和 验证 。 

此 时 ， 假 设 通过 所 学 技术 ， 我 们 已 经 成 功 得 到 一 个 具有 所 有 特征 的 数据 集 。 使 用 本 章 前 面 
介绍 过 的 抽样 技术 ， 可 以 获取 更 小 的 数据 集 ， 将 其 保存 到 磁盘 ， 并 使 用 Scikit-Learn 构建 


import pickle 
import numpy as np 
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from sklearn import linear_model 


# 从 磁盘 的 制 表 符 分 割 文件 加 载 数据 
data = np.loadtxt('sample.txt') 





# 目标 是 第 一 列 ( 键 ) ,X 是 值 
data[:,0] 
data[:,1:] 


x 


# 实例 化 并 拟 合 线性 模型 
clf = linear_model.Ridge(alpha=1.0, fit intercept=True) 
clf fit( Xs Vy 


# 将 模型 作为 ptckte 写 入 磁盘 
with open('clf.pickle', 'wb') as f: 
pickle.dump(clf, f) 


这 段 代码 使 用 np.Loadtxt 函数 从 磁盘 加 载 样本 数据 ， 在 这 个 例子 中 是 包含 实例 的 制 表 符 分 
隔 文 件 ， 第 一 列 是 目标 值 ， 其 余 列 是 特征 。 这 种 类 型 的 输出 与 Spark 和 MapReduce 将 键 值 
对 写 人 磁盘 时 的 格式 吻合 ， 但 是 你 必须 将 集群 中 的 数据 收集 到 单个 文件 ， 并 确保 文件 格式 


正确 。 然 后 ， 数 据 被 拟 合 到 岭 回归 ， 这 是 一 种 使 用 正则 化 来 防止 过 拟 合 的 线性 回归 模型 。 


5.3.2 ”模型 验证 

为 了 在 集群 中 评估 这 个 模型 的 效果 ， 我 们 有 两 个 选择 。 第 一 种 ， 将 Scikit-Learn 线性 模型 
属性 clf.coef_ (系数 ) 和 cLf.intercept_ (错误 项 ) 写 和 磁盘， 然后 将 这 些 参数 加 载 到 我 
们 的 MapReduce 或 Spark 作业 中 ， 并 自行 计算 误差 。 然 而 ， 这 需要 为 每 个 模型 实现 一 个 预 
测 函 数 。 第 二 种 ， 使 用 pickle 模块 将 模型 转 储 到 磁盘 ， 然 后 将 其 加 载 到 集群 中 的 每 个 节点 
供 预 测 使 用 。 现 在 就 来 编写 Scikit-Learn 模型 误差 估计 模板 ， 因 为 我 们 在 进行 假设 驱动 开 
发 〈 例 如 调整 参数 、 执 行 特征 分 析 或 模型 选择 ) ， 所 以 可 以 使 用 任意 Scikit-Learn 模型 。 

要 想 验证 模型 ， 就 必须 计算 整个 数据 集 的 均 方 误差 (mean square error，MSE)。 误 差 被 定 
义 为 实际 值 和 预测 值 之 间 的 差 值 y -了 了。 为 了 确保 没有 负 值 (这 将 减少 误差 )， 我 们 将 计算 
平方 误差 的 均值 。 为 此 ， 只 需要 一 个 计算 平均 值 的 reducer 和 一 个 加 载 模型 并 计算 均 方 误 
差 的 mapper 即 可 : 


import pickle 













































































class MSEMapper (Mapper): 


def _init (self, model, *args, **kwargs): 
super(MSEMapper, self)._ iinit _(*args, **kwargs) 


# 从 磁盘 加 载 模型 
with open(model, 'rb') as f: 
self.clf = pickle.load(f) 


def map(self): 
for row in self: 
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# 解析 行内 浮 点 数值 
row = map(float, row) 
y = row[0] 

X = row[1:] 


yhat = self.clf.predict(x) 


self.emit(_, (y-yhat) ** 2) 


可 以 在 Spark 中 使 用 一 个 累加 器 来 求 平方 误差 之 和 ， 并 将 模型 广播 到 集群 上 ， 如 下 所 示 : 





def cost(row, 


clf=None): 


计算 给 定 行 的 平方 误差 


return (row[0] - clf.predict(row[1:])) ** 2 


def main(sc): 


Spark 应 用 





程序 的 主要 分 析 过 程 


# 从 picktLe 文 件 加 载 模型 
with open('clf.pickle', 'rb') as f: 
clf = sc.broadcast(modeL.Load(f)) 


# 创建 累加 器 , 求 平方 误差 的 和 


sum_square_error = sc.accumulator(0) 


# 加 载 和 解析 博客 数据 








blogs = sc.textFile("blogData").map(float) 


# 映射 cost 函 数 , 累加 平方 误差 
error = blogs.map(partial(cost, clf=clf)) 
error .foreach(Lambda cost: sum square_error.add(cost)) 


# 计算 平均 平方 误差 并 打印 

print sum_square_error.vaLue / error.count() 
使 用 pickle 模块 来 序列 化 Scikit-Learn 模型 是 使 用 极 大 数据 集 进 行 机 器 学 习 的 好 开始 。 工 
作 流 通常 是 将 经 过 序列 化 的 模型 存储 在 数据 库 blob 字段 中 ， 然 后 根据 需要 在 集群 中 进行 
加 载 和 验证 。 更 高 级 的 大 数据 和 扩展 需要 像 Mahout 和 Spark 的 MLlib 这 样 的 机 器 学 习 库 ， 





这 些 内 容 将 在 第 9 














章 进 行 详细 讨论 。 当 然 ， 对 于 近期 开发 的 没有 对 应 的 分 布 式 实现 版 本 的 








模型 ， 或 者 不 能 六 


F 行 化 的 模型 来 说 ， 我 们 还 是 有 办 法 的 。 无 论 采 用 哪 种 方式 ， 抽 样 、 训 





练 、 验 证 策略 都 是 行 之 有 效 的 分 析 方 法 。 


5.4 小结 
本 书 以 描述 大 数据 上 下 文中 的 数据 科学 流程 开始 ， 重 点 介绍 了 构建 数据 产品 和 数据 科学 流 


水 线 。 然 后 就 顺 型 

















EE 成章 地 从 这 些 一 般 性 话题 转向 了 更 具体 的 分 布 式 计算 、MapReduce 和 
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Spark。 在 本 章 开 头 ， 你 应 该 已 经 轻松 理解 了 分 布 式 计 算 的 工作 原理 、 如 何在 Hadoop 集群 
上 实现 作业 ， 但 不 一 定 了 解 要 实现 什么 。 本 章 旨 在 让 你 了 解 各 种 分 布 式 计算 模式 ， 并 介绍 
了 一 些 分 析 方 法 ， 以 说 明 如 何 将 其 他 数据 处 理工 作 流 改编 成 大 规模 分 析 的 版 本 。 

我 们 确定 的 第 一 件 事 就 是 使 用 键 进行 计算 ， 这 是 一 种 自然 而 然 的 并 行 化 技巧 ， 使 我 们 能 后 
时 在 多 个 集 或 域 上 进行 操作 。 基 于 键 的 计算 允许 将 操作 同时 应 用 到 多 个 集合 ， 而 不 需要 进 
行 若干 独立 的 查询 。 理 解 如 何 使 用 键 计算 对 于 理解 MapReduce 非常 重要 ， 与 Spark 计算 也 
联系 紧密 。 为 此 ， 给 mapper 和 reducer 引入 几 个 基于 键 的 模式 ， 包 含 MapReduce 和 Spark 
两 种 实现 。 然 后 ， 本 章 继续 讨论 更 高 级 的 算法 和 操作 的 设计 模式 ， 研 究 了 概要 、 索 引 和 过 
滤 模 式 ， 但 在 这 个 过 程 中 提出 了 非常 常见 的 分 析 ， 如 TF-IDF、 描 述 和 随机 抽样 。 这 些 模 
式 和 算法 呈现 了 怎样 用 Hadoop 进行 分 析 ， 而 不 是 怎样 使 用 Hadoop 进行 计算 。 最 后 ， 展 示 
了 一 个 使 用 “最 后 一 英里 计算 ”计算 线性 回归 的 端 到 端 分 析 的 案例 。 我 们 描述 了 分 解 输入 
域 、 执 行内 存 计 算 、 在 集群 中 验证 计算 的 基本 初始 策略 ， 这 种 策略 可 应 用 于 数据 流水 线 的 
许多 部 分 ， 在 敏捷 、 假 设 驱 动 的 开发 工作 流 中 支持 各 种 分 析 。 

本 章 是 本 书 第 一 部 分 和 第 二 部 分 之 间 承 上 启 下 的 部 分 。 上 半 部 分 讨论 了 Hadoop 裸 机 (bare 
metal) 和 计算 细节 ， 下 半 部 分 更 多 地 将 Hadoop 看 作 是 一 个 数据 管理 工具 。 接 下 来 的 章节 
将 重点 介绍 Hadoop 生态 系统 和 支持 集群 中 数据 流水 线 的 工具 。 我 们 将 研究 使 用 Hive 的 数 
据 挖掘 和 数据 仓储 、 使 用 Sqoop 的 数据 采集 、 使 用 Pig 和 Spark 等 高 阶 工具 的 数据 流 ， 以 
及 使 用 Spark MLlib 的 机 器 学 习 。 这 一 章 是 桥梁 ， 连 通 从 使 用 Hadoop 裸 机 能 实现 的 功能 ， 
到 使 用 这 些 库 可 能 实现 的 功能 之 间 的 路 。 
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第 二 部 分 


大 数据 科学 的 工作 流 和 工具 











本 书 第 二 部 分 将 探索 更 高 级 的 工作 流 和 工具 ， 供 数据 科学 家 使 用 。 虽 然 掌握 了 Hadoop、 
MapReduce 和 Spark 的 基础 知识 才能 了 解 可 以 进行 什么 样 的 大 规模 分 析 ， 但 是 与 大 数据 打 
交道 的 数据 科学 家 通常 每 天 都 围绕 着 构建 于 Hadoop 之 上 的 工具 生态 系统 工作 。 总 体 来 说 ， 
第 二 部 分 围绕 第 1 章 提出 的 数据 产品 流水 线 组 织 章节 内 容 。 

第 6 章 讨论 数据 挖掘 和 数据 仓储 ， 并 就 关系 型 和 列 式 数 据 存储 及 查询 分 别 介绍 Hive 和 
HBase; 第 7 章 阐明 对 能 将 数据 采集 到 HDFS 的 采集 工具 的 需求 ， 研 究 如 何 使 用 Sqoop 采 
集结 构 化 数据 ， 以 及 如 何 使 用 Flume 采集 非 结 构 化 数据 ;第 8 章 探 讨 用 于 分 析 的 高 级 API; 
Apache Pig 和 Spark DataFrame; 第 9 章 讨论 使 用 Spark MLlib 的 机 器 学 习 和 计算 方法 ， 最 
后 ， 第 10 章 对 以 上 各 章 讨论 过 的 工作 流 进行 总 结 ， 并 对 数据 科学 进行 全 面 回顾 。 
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作为 数据 分 析 师 ， 我 们 通常 更 愿意 专注 于 能 获取 有 意义 见解 的 数据 挖掘 任务 ， 或 者 对 经 过 
整理 (curated)、 清 洗 和 分 段 (staging) 的 数据 应 用 预测 建 模 方法 。 然 而 ， 在 大 多 数 传统 企 
业 的 数据 环境 中 ， 在 进行 任何 有 意义 的 数据 分 析 之 前 ， 都 需要 投入 大 量 的 工程 和 技术 资源 
来 收集 这 些 数据 ， 并 将 其 组 织 到 统一 的 数据 仓库 中 。 

因此 ， 企 业 数 据 仓库 (enterprise data warehouse，EDW) 已 经 成 为 大 多 数 企 业 处 理 和 分 
析 大 规模 数据 的 关键 。 然 而 ， 由 于 绝 大 多 数 EDW 使 用 某 种 形式 的 关系 数据 库 管 理 系统 
(relational database management system，RDBMS) 作为 主要 的 存储 工具 和 查询 引擎 ， 攻 
此 在 开展 新 的 数据 分 析 项 目 时 ， 将 在 前 期 模式 设计 和 ETL 操作 上 花费 大 量 精 力 。 据 估计 ， 
ETL 将 占 数据 仓储 成 本 、 风 险 和 实施 时 间 的 70%~80%。! 这 种 开销 导致 即使 是 最 一 般 的 数 
据 分 析 原 型 设计 或 探索 性 分 析 也 成 本 高 昂 。 

当 我 们 需要 存储 和 分 析 的 数据 的 数据 类 型 急剧 增加 时 一 一 这 些 数据 可 以 是 非 结 构 化 的 
(电子 邮件 、 多 媒体 文件 ) 或 半 结 构 化 的 (点 击 流 式 数 据 ) 一 一 RDBMS 就 暴露 了 另 一 个 
局 限 性 : 数据 的 速度 和 多 样 性 常常 需要 “即时 ”地 演进 模式 ， 这 要 被 传统 的 DW 支持 是 
件 非 常 困难 的 事 。 
正 是 出 于 这 些 原 因 ，Hadoop 成 为 了 数据 仓储 和 数据 挖掘 领域 最 具 革 命 性 的 技术 。 它 将 存 
储 与 处 理 分 离 ， 使 公司 能 够 将 其 原始 数据 存储 在 HDFS 中 ， 而 不 需要 通过 ETL 将 数据 整 
合 到 一 个 统一 的 数据 模型 中 。 此 外 ， 通 过 使 用 YARN 的 通用 处 理 层 ， 我 们 能 够 从 多 个 角 
度 直接 访问 和 查询 原始 数据 ， 还 能 根据 特定 用 例 使 用 不 同 的 方法 (SQL、 非 SQL)。 因 此 ， 
Hadoop 不 仅 支 持 探 索性 分 析 和 数据 挖掘 原型 设计 ， 还 为 数据 和 分 析 的 新 类 型 打开 了 大 门 。 



















































































注 1: Kimball Group, “New Directions for ETL” (https://channels.theinnovationenterprise.com/articles/new- 


directions-for-et]). 
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本 章 将 介绍 一 些 Hadoop 中 的 主要 框架 和 工具 ， 用 于 实现 数据 仓储 和 数据 挖掘 功能 ， 还 将 
探索 Hadoop 最 受 欢迎 的 基于 SQL 的 查询 引擎 Hive， 以 及 NoSQL 数据 库 HBase; 最 后 ， 
将 再 简单 介绍 一 些 数据 仓储 领域 的 赣 名 Hadoop 项 目 。 


6.1 Hive 结 构 化 数据 查询 


Apache Hive 是 一 个 建立 在 Hadoop 之 上 的 “数据 仓储 ”框架 。Hive 为 数据 分 析 人 员 提 供 了 
熟悉 的 、 基 于 SQL 的 Hadoop 接口 ， 使 他 们 能 为 HDFS 中 的 数据 添加 结构 化 模式 ， 并 能 使 用 
SQL 查询 访问 和 分 析 该 数据 。Hive 使 熟练 使 用 SQL 的 开发 人 员 能 发 挥 Hadoop 的 可 扩展 性 
和 弹性 ， 而 不 需要 他 们 学 习 Java 或 原生 的 MapReduce API。 


Hive 提供 了 自己 的 SQL 方言 ， 被 称 为 Hive 查询 语言 (Hive Query Language, HQL)。HQL 
支持 许多 常用 的 SQL 语句 ， 包 括 数据 定义 语句 (data definition statement，DDL， 例 如 CREATE 
DATABASE/SCHEMA/TABLE)、 数 据 操作 语句 (data manipulation statement，DMS， 例 如 INSERT、 
UPDATE 和 LOAD) 和 数据 检索 查询 (例如 SELECT) 。Hive 还 支持 集成 用 户 定义 函数 ， 这 些 函 数 
可 以 由 Java 或 Hadoop Streaming 支持 的 任何 语言 编号， 扩展 了 HQL 的 内 置 功 能 。 


Hive 命令 和 HQL 查询 被 编译 成 执行 计划 或 一 系列 HDFS 操作 和 /或 MapReduce 作业 ， 然 
后 在 Hadoop 集群 上 执行 。 因 此 ，Hive 继承 了 HDFS 和 MapReduce 的 某 些 限制 ， 无 法 提 
供 传统 数据 库 管理 系统 应 有 的 关键 联机 事务 处 理 (online transaction processing，OLTP) 功 
能 。 具 体 来 说 ， 因 为 HDFS 是 写 一 次 ， 读 多 次 (WORM) 文件 系统 ， 并 且 不 提供 就 地 文件 
更 新 ， 因 此 Hive 执行 起 行 级 插入 、 更 新 或 删除 不 是 非常 高 效 。 事 实 上 ， 这 些 行 级 更 新 最 
近 才 被 Hive 的 0.14.0 版 本 (https:Wissues.apache.org/jira/browse/HIVE-5317) 支持 。 

此 外 ， 为 了 满足 在 集群 上 生成 和 启动 编译 的 MapReduce 作业 所 需 的 开销 ，Hive 查询 需要 更 
长 的 延迟 ， 在 传统 RDBMS 上 几 秒 就 能 完成 的 小 型 查询 在 Hive 中 可 能 需要 几 分 钟 才能 完成 。 
好 在 Hive 提供 了 所 有 基于 Hadoop 的 应 用 程序 都 应 有 的 高 可 扩展 性 和 高 否 吐 量 。 因 此 ， 它 
非常 适用 于 联机 分 析 处 理 (online analytical processing，OLAP) 的 批 处 理 任务 ， 处 理 TB 
级 甚至 PB 级 的 超大 数据 集 。 

本 市 将 探讨 Hive 的 一 些 主要 功能 ， 并 编写 HQL 查询 以 执行 数据 分 析 。 我 们 假设 你 已 经 在 
伪 分 布 式 模式 的 Hadoop 上 安装 了 Hive，Hive 的 安装 步骤 可 参见 附录 B。 
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6.1.1 Hive 命 令 行 接口 (CL1) 


Hive 的 安装 包 里 有 一 个 方便 的 命令 行 接口 (command-line interface，CLI) ， 我 们 将 使 用 它 
与 Hive 交互 ， 并 运行 HQL 语句 。 从 SHIVE_HOME 启动 Hive CLI: 

~$ cd SHIVE_HOME 

/srv/hives$s bin/hive 
这 将 启动 CLI 并 引导 启动 logger (如 果 配 置 了 ) 和 Hive 历史 记录 文件 ， 并 最 终 显示 Hive 
CLI 提示 : 








hive> 
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使 用 以 下 命 PR 亲信 令 可 以 随时 退 XL 出 Hive CLI: 


hive> exit; 


通过 传递 文件 名 选项 -f 和 要 执行 的 脚本 的 路 径 ，Hive 也 可 以 直接 从 命令 行 以 非 交互 模式 


运作 : 





型 





~$ hive -f ~/hadoop-fundamentaLs/hive/init.hqL 
~$ hive -f ~/hadoop-fundamentaLs/hive/top_50_pLayers_by_homeruns .hqL >> 
~/homeruns .tsv 


此 外 ， 带 引号 的 查询 字符 串 选 项 -e 让 你 能 从 命令 行 运行 内 联 命令 : 
~$ hive -e 'SHOW DATABASES; 

可 以 使 用 -H 标志 查看 CLI 的 Hive 选项 的 完整 列表 : 
~$ hive -H 


usage: hive 


-d,--define <key=value> Variable substitution to apply to hive 
commands. e.g. -d A=B or --define A=B 
--database <databasename> Specify the database to use 
-e <quoted-query-string> SQL from command line 
-f <filename> SQL from files 
-H,--help Print help information 
-h <hostname> connecting to Hive Server on remote host 
--hiveconf <property=vaLue> Use value for given property 
--hivevar <key=value> Variable substitution to apply to hive 
commands. e.g. --hivevar A=B 
-i <filename> Initialization SQL file 
-p <port> connecting to Hive Server on port number 
-S,--silent Silent mode in interactive shell 
-V,--verbose Verbose mode (echo executed SQL to the 
console) 




















非 交 互 模式 为 运行 已 存 脚本 提供 了 方便 ， 但 是 CLI 使 我 们 能 够 在 Hive 中 轻松 地 调试 和 迭 
代 查 询 。 





6.1.2 ”Hive 查 询 语 言 
在 本 节 中 ， 我 们 将 通过 编写 HQL 语句 ， 创 建 Hive 数据 库 、 将 HDFS 中 的 数据 加 载 到 数据 
库 ， 以 及 查询 数据 进行 分 析 。 本 节 引 用 的 数据 可 以 在 GitHub 仓库 的 /data 目录 中 找到 。 


1. 创 建 数据 库 


在 Hive 中 创建 数据 库 与 在 基于 SQL 的 RDBMS 中 创建 数据 库 非 常 相 似 ， 使 用 CREATE 
DATABASE 或 CREATE SCHEMA 语句 : 





hive> CREATE DATABASE log_data; 


当 Hive 创建 新 数据 库 时 ， 模 式 定 义 数 据 存 储 在 Hive Metastore 中 。 如 果 Metastore 中 已 经 
有 该 数据 库 ，Hive 将 抛 出 错误 。 我 们 可 以 通过 使 用 IF NOT EXISTS 来 检查 数据 库 是 否 存在 : 


hive> CREATE DATABASE IF NOT EXISTS log_data; 














然后 运行 SHOW DATABASES 来 验证 数据 库 是 否 已 被 创建 。Hive 将 返回 在 Metastore 中 找到 的 
所 有 数据 库 ， 以 及 默认 的 Hive 数据 库 : 


hive> SHOW DATABASES ; 

OK 

default 

Log_data 

Time taken: 0.085 seconds, Fetched: 2 row(s) 


此 外 ， 可 以 使 用 USE 命令 设置 工作 数据 库 : 


hive> USE log_data; 


这 样 就 可 以 在 Hive 中 创建 一 个 数据 库 。 可 以 通过 在 数据 库 中 创建 表 定 义 ， 描 述 数 据 的 
结构 。 


2. 创 建 表 
Hive 提供 了 一 个 类 似 SQL 的 CREATE TABLE 语句 ， 最 简单 的 形式 由 一 个 表 名 和 一 个 列 定义 
构成 : 


CREATE TABLE apache log ( 
host STRING, 
identity STRING, 
user STRING, 
time STRING, 
request STRING, 
status STRING, 
size STRING, 
referer STRING, 
agent STRING 
); 
但 是 由 于 Hive 数据 存储 在 文件 系统 ， 通 常 在 HDFS 或 本 地 文件 系统 中 ， 所 以 CREATE TABLE 
命令 还 使 用 可 选 子 句 指定 行 格式 ， 使 用 ROW FORMAT 子 句 告诉 Hive 如 何 读 取 文 件 中 的 每 一 
行 并 映射 到 我 们 的 列 。 例 如 ， 可 以 指明 数据 位 于 由 制 表 符 分 隔 字段 的 文件 中 ; 
hive> CREATE TABLE shakespeare ( 


Lineno STRING, 
Linetext STRING 





























ROW FORMAT DELIMITED 
FIELDS TERMINATED BY '\t'; 





Apache 访问 日 志 的 每 行 根 据 通用 日 志 格式 (https:/httpd.apache.org/docs1.3/logs.html#common) 
进行 结构 化 。 好 在 Hive 为 我 们 提供 了 一 种 方法 ， 能 将 正则 表达 式 应 用 于 已 知 格式 的 记录 ， 
从 而 将 每 行 反 序列 化 或 解析 为 各 个 组 成 字段 。 我 们 将 使 用 Hive 的 serializer-deserializer 行 
格式 选项 SERDE 和 RegexSerDe 库 来 指定 反 序 列 化 ， 并 将 字段 映射 到 表 列 的 正则 表达 式 。 
需要 手动 将 lib 文件 夹 中 的 hive-serde JAR 添加 到 当前 hive 会 话 ， 以 便 使 用 RegexSerDe 包 : 


hive> ADD JAR /srv/hive/Lib/hive-serde-0.13.1.jar; 


现在 删除 之 前 创建 的 apache_log 表 ， 并 使 用 自 定义 序列 化 器 重新 创建 它 : 
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hive> DROP TABLE apache_Log; 


hive> CREATE TABLE apache_Log ( 

host STRING, 

identity STRING, 

user STRING, 

time STRING, 

request STRING, 

status STRING, 

size STRING, 

referer STRING, 

agent STRING 


) 

ROW FORMAT SERDE "org.apache.hadoop.hive.serde2.RegexSerDe ' 

WITH SERDEPROPERTIES ("input.regex" = "([^ ]*) ([^ ]*) ([^ ]*) (-|\\[[^\\]] 
DEE AN NEN VY G0:9]*) C=| [0-91*)C2?: CL NI EN 
*|\".*\"))?", "output.format.string" = "%1$s %2$s %3$s %4$s %5$s %6$s %7$s 


%8$s %9$s") 
STORED AS TEXTFILE; 


创建 之 后 就 可 以 使 用 DESCRIBE 来 验证 表 定 义 : 


hive> DESCRIBE apache_log; 


OK 

host string 
identity string 
user string 
time string 
request string 
status string 
size string 
referrer string 
agent string 


from 
from 
from 
from 
from 
from 
from 
from 
from 


Time taken: 0.553 seconds, Fetched: 9 row(s) 


请 注意 ， 在 这 个 表 中 ， 所 有 列 都 使 用 Hive 原始 数据 类 型 string 定义 。Hive 支持 SQL 用 户 
熟悉 的 许多 其 他 原始 数据 类 型 ， 并 且 通 常 与 Java 支持 的 原始 类 型 (https://cwiki.apache.org/ 
conftuence/display/Hive/LanguageManual+tDDL) 对 应 。 表 6-1 列举 了 这 些 原始 数据 类 型 。 


表 6-1: Hive 的 原始 数据 类 型 








deserializer 
deserializer 
deserializer 
deserializer 
deserializer 
deserializer 
deserializer 
deserializer 
deserializer 





























类 型 描述 示例 

TINYINT 8 位 带 符号 整数 ， 从 -128 到 127 127 

SMALLINT 16 位 带 符号 整数 ， 从 -32 768 到 32 767 32767 

INT 32 位 带 符号 整数 2147483647 

BIGINT 64 位 带 符 号 整数 9223372036854775807 
FLOAT 32 位 单 精度 浮 点 数 1.99 

DOUBLE 64 位 双 精 度 浮 点 数 3.14159265359 
BOOLEAN true 或 false true 

STRING 最 大 2GB 的 字符 串 hello world 





TIMESTAMP 纳 秒 级 时 间 戳 


1400561325 
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除 原始 数据 类 型 之 外 ，Hive 还 支持 可 以 存储 值 集合 的 复杂 数据 类 型 ， 表 6-2 列举 了 这 


表 6-2: Hive 的 复杂 数据 类 型 











类 型 描述 示例 
ARRAY 有 序 集合 ， 数 组 中 元 素 的 类 型 必须 相同 recipients ARRAY<email:STRING> 
MAP 无 序 键 值 对 集合 ， 键 必须 是 原始 数据 类 型 ，files MAP<filename:STRING,size:INT> 
但 值 可 以 是 任意 类 型 
STRUCT ”任意 类 型 元 素 集 合 address STRUCT<street:STRING,city:STRING, 








state: STRING,zip:INT> 


这 乍 看 之 下 可 能 很 别扭 ， 因 为 关系 数据 库 通常 不 支持 集合 类 型 ， 而 是 将 相关 集合 存储 在 单 
独 的 表 中 ， 以 维持 第 一 范式 ， 最 小 化 数据 重复 和 数据 不 一 致 的 风险 。 然 而 ， 在 像 Hive 这 
样 的 通过 顺序 扫描 磁盘 来 处 理 大量 非 结构 化 数据 的 大 数据 系统 中 ， 读 取 伐 入 集合 能 大 大 提 
高 检索 性 能 。? 

有 关 Hive 支持 的 表 和 数据 类 型 选项 的 完整 介绍 ， 请 参见 Apache Hive 语言 手册 (https:// 
cwiki.apache.org/confluence/display/Hive/LanguageManual ) 。 


3. 加 载 数据 

创建 表 和 定义 模式 之 后 ， 就 可 以 将 数据 加 载 到 Hive 了 。 请 注意 Hive 和 传统 RDBMS 在 强 
化 模式 (schema enforcement) 上 有 一 个 重要 区 别 : Hive 不 会 对 数据 执行 任何 证 明 它 是 否 
符合 表 模 式 的 验证 ， 也 不 会 在 将 数据 加 载 到 表 中 时 执行 任何 转换 。 

传统 的 关系 数据 库 通 过 拒绝 写 入 不 符合 模式 定义 的 数据 ， 强 制 执行 写 时 模式 (schema on 
write) ; 而 Hive 对 查询 只 强制 执行 读 时 模式 (schema on read)。 在 读 取 数据 文件 时 ， 如 果 
文件 结构 与 定义 的 模式 不 匹配 ，Hive 通常 会 为 缺失 的 或 类 型 不 匹配 的 字段 返回 nutl 值 ， 
并 尝试 从 错误 中 恢复 。 读 时 模式 初始 加 载 的 速度 非常 快 ， 因 为 数据 不 以 数据 库 的 内 部 格 
式 读 取 、 解 析 和 序列 化 到 磁盘 。 加 载 操作 纯粹 是 将 数据 文件 移动 到 Hive 表 (https://cwiki. 
apache.org/confluence/display/Hive/LanguageManual+DML) 中 对 应 位 置 的 复制 / 移动 操作 。 


Hive 中 的 数据 加 载 通过 LOAD DATA 命令 批量 完成 ， 也 可 以 使 用 INSERT 命令 插入 另 一 个 查 
询 的 结果 完成 。 首 先 ， 将 Apache 日 志 数 据 文件 (http://ita.ee.lbl.gov/html/contrib/Calgary- 
HTTP.html) 复制 到 HDFS， 然 后 将 其 加 载 到 之 前 创建 的 表 中 : 


~$ hadoop fs -mkdir statistics 

~$ hadoop fs -mkdir statistics/log_data 

~$ hadoop fs -copyFromLocal ~/hadoop-fundamentals/data/log_data/apache.log \ 
statistics/log data/ 


可 以 使 用 tail 命令 验证 apache.log 是 否 成 功 上 传 到 了 HDFS: 


~$ hadoop fs -tail statistics/log_data/apache.log 


一 旦 文件 上 传 到 了 HDFS， 就 返回 Hive CLI 并 使 用 Log_data 数据 库 : 



























































注 2: 《Hive 编程 指南 》，Capriolo 等 人 和 车。 
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~$ SHIVE_HOME/bin/hive 


hive> Use log_data; 
OK 
Time taken: 0.221 seconds 


使 用 LOAD DATA 命令 ， 并 指定 日 志文 件 的 HDFS 路 径 ， 将 内 容 写 入 到 apache_log 表 中 : 


hive> LOAD DATA INPATH 'statistics/log-data/apache.log' 
OVERWRITE INTO TABLE apache log; 





Loading data to table log data.apache_log 

rmr: DEPRECATED: Please use 'rm -r' instead. 

Deleted hdfs://LocaLhost:9000/user/hive/warehouse/Log_data.db/apache_Log 
Table log_data.apache_log stats: [numFiles=1, numRows=0, totalSize=52276758, 
rawDataSize=0] 

OK 

Time taken: 0.902 seconds 


LOAD DATA 是 Hive 的 批量 加 载 命 令 。INPATH 携带 一 个 指向 默认 文件 系统 (本 例 中 为 HDFS) 
中 的 路 径 的 参数 。 我 们 还 可 以 使 用 LOCAL INPATH 来 指定 本 地 文件 系统 上 的 路 径 。Hive 将 文 
件 移 动 到 仓库 位 置 。 如 果 使 用 OVERWRITE 关键 字 ， 则 目标 表 中 的 所 有 已 有 数据 将 被 删除 并 
由 数据 文件 输入 替换 ， 否 则 ， 新 数据 将 被 添加 到 表 中 。 

数据 复制 并 加 载 后 ，Hive 输出 了 一 些 关 于 加 载 数 据 的 统计 信息 ， 虽 然 报告 的 num_rows 为 0， 
但 你 可 以 通过 运行 SELECT COUNT 来 验证 实际 行 数 (省 略 输 出 ) : 


hive> SELECT COUNT(1) FROM apache_log; 
Total MapReduce jobs = 1 
Launching Job 1 out of 1 














OK 

726739 

Time taken: 34.666 seconds，Fetched: 1 row(s) 
可 以 看 到 ， 这 个 Hive 查询 运行 时 ， 实 际 上 执行 了 一 个 MapReduce 作业 来 执行 聚合 。 在 
MapReduce 作业 执行 后 ， 你 可 以 看 到 apache_log 表 目 前 有 726 739 行 。 


6.1.3 ”Hive 数 据 分 析 

你 已 经 定义 了 一 个 模式 并 将 数据 加 载 到 了 Hive 中 ， 现 在 就 可 以 对 Hive 数据 库 运 行 HQL 
查询 ， 从 而 对 数据 进行 实际 的 数据 分 析 了 。 在 本 节 中 ， 我 们 将 编写 和 运行 HQL 查询 ， 根 
据 先前 导入 的 Apache 访问 日 志 数 据 ， 确 定 远 程 流 量 访问 的 高 峰 月 份 。 

1. 分 组 

在 上 一 节 中 ， 我 们 将 一 份 Apache 访问 日 志文 件 加 载 到 了 名 为 apache_log 的 Hive 表 中 ， 其 
中 包含 Apache Common Log 格式 (http://httpd.apache.org/docs/2.2/logs.html#accesslog) 的 
Web 日 志 数 据 : 


127.0.0.1 - frank [10/0ct/2000:13:55:36 -0700] "GET /apache_pb.gif HTTP/1.0" 200 
2326 




















考虑 一 个 计算 每 个 自然 月 访问 数 的 MapReduce 程序 。 尽 管 这 是 一 个 非常 简单 的 分 组 计数 
问题 ， 但 是 要 实现 这 个 MapReduce 程序 仍然 需要 耗费 不 少 的 精力 一 一 除了 要 编写 mnapper、 
reducer 和 配置 作业 的 main 函数 之 外 ， 还 要 编译 和 创建 JAR 文件 。 但 有 了 Hive 的 话 ， 这 
个 问题 将 与 运行 SQL 的 GROUP BY 查询 一 样 简单 直观 : 
hive> SELECT 
month ， 
count(1) AS count 
FROM (SELECT split(time, '/')[1] AS month FROM apache_Log) 1 


GROUP BY month 
ORDER BY count DESC; 











Mar 99717 
Sep 89083 
Feb 72088 
Aug 66058 
Apr 64984 
May 63753 
Jul 54920 
Jun 53682 
Oct 45892 
Jan 43635 
Nov 41235 
Dec 29789 
NULL 1903 
Time taken: 84.77 seconds, Fetched: 13 row(s) 


Hive 查询 和 MapReduce 程序 都 要 对 输入 进行 分 词 ， 并 提取 月 份 令 牌 作为 聚合 字段 。 不 仅 
如 此 ，Hive 还 提供 了 简洁 自然 的 查询 接口 来 执行 分 组 ， 又 因为 数据 被 结构 化 为 Hive 表 ， 
所 以 我 们 可 以 轻松 地 在 其 他 任何 字段 上 执行 其 他 即席 查询 : 


hive> SELECT host, count(1) AS count FROM apache_Log GROUP BY host 
ORDER BY count; 


除了 计数 之 外 ，Hive 还 支持 其 他 聚合 函数 来 计算 数字 列 的 总 和 、 平 均值 、 最 小 值 、 最 大 值 
以 及 方差 、 标 准 差 和 协 方 差 等 统计 聚合 。 使 用 这 些 内 置 聚 合 函 数 时 ， 可 以 通过 将 以 下 属性 
设置 为 true 来 提高 聚合 查询 的 性 能 : 


hive> SET hive.map.aggr = true; 


这 种 设置 告诉 Hive 在 map 阶段 执行 “顶层 ”(top-level) 聚合 ， 这 与 执行 GROUP BY 后 再 进 
行 聚合 不 同 。 但 请 注意 , 此 设置 将 需要 更 多 内 存 。 在 Hive 文档 的 “Hive Operators and User- 
Defined Functions (UDFs)”(http://bit.ly/1r1RnGC) 中 可 以 找到 内 置 聚 合 函 数 的 完整 列表 。 


Hive 还 提供 了 轻松 存储 计算 结果 的 捷径 。 你 可 以 创建 新 的 表 来 存储 这 些 查 询 返 回 的 结果 ， 
以 便 进行 记录 保存 和 分 析 : 


hive> CREATE TABLE 
remote_hits_by_month 
AS 























rie 
























































注 3:《Hive 编程 指南 》，Edward Capriolo、Dean Wampler、Jason Rutherglen 车。 








数据 挖掘 和 数据 仓储 | 109 


SELECT 
month ， 
count(1) AS count 
FROM ( 
SELECT split(time, '/')[1] AS month 
FROM apache_log 
WHERE host == 'remote' 
) 
GROUP BY month 
ORDER BY count DESC; 


CREATE TABLE AS SELECT (CTAS) 操作 非常 有 用 ， 它 能 从 现 有 Hive 表 过 滤 和 聚合 ， 从 而 
派生 并 构建 新 表 。 

2. 聚 合 和 连接 

当 在 单个 结构 化 的 数据 集中 查询 和 聚合 数据 时 ，Hive 能 提供 一 些 便利 ， 我 们 对 此 也 有 所 涉 
及 。 但 在 多 个 数据 集 之 上 执行 更 复杂 的 聚合 时 ，Hive 才能 真正 物 尽 其 用 。 

在 第 3 章 中 ， 我 们 开发 了 一 个 MapReduce 程序 ， 根 据 交通 研究 与 创新 技术 管理 局 (RITA， 
http://1.usa.gov/1r1RJ09) 收集 的 航班 数据 分 析 美 国航 空 公司 的 准点 情况 。 那 一 章 将 该 准点 
数据 集 进 行 了 归 一 化 ， 让 单个 数据 文件 包含 所 有 必需 的 数据 ;但 事实 上， 从 RITA 网 站 下 
载 的 数据 包括 航空 公司 和 飞机 的 代码 ， 它 们 必须 分 别 参照 单独 的 查找 数据 集 。2014 年 4 月 
的 数据 已 被 放 入 GitHub 仓库 的 data/flight_data 目录 。 


ontime_flights.tsv 中 的 准点 航班 数据 的 每 一 行 都 包含 一 个 表示 航空 公司 代码 (如 19805) 的 
整数 值 和 一 个 表示 飞机 代码 (如 “AA”) 的 字符 串 值 。 航 空 公司 代码 可 以 与 airlines.tsv 文 
件 中 相应 的 代码 进行 连接 ， 该 文件 每 行 包含 代码 和 相应 的 描述 : 

19805 American Airlines Inc.: AA 


同 理 ， 飞 机 代码 可 以 与 carriers.tsv 中 对 应 的 代码 进行 连接 ， 该 文件 包含 代码 、 相 应 的 航空 
公司 名 称 和 生效 日 期 : 


AA American Airlines Inc. (1960 - ) 


要 在 MapReduce 程序 中 实现 这 些 连接 ， 需 要 在 map 端 加 载 查找 表 到 内 存 中 进行 连接 ， 或 
者 在 reduce 端 连 接 。 这 两 种 方法 都 需要 耗费 大 量 精 力 编写 配置 作业 的 MapReduce 代码 ， 
但 是 通过 Hive， 则 可 以 简单 地 将 这 些 附加 的 查找 数据 集 加 载 到 单独 的 表 中 ， 并 在 SQL 查 
询 中 执行 连接 。 
假设 我 们 已 经 将 数据 文件 上 传 到 了 HDFS 或 本 地 文件 系统 。 首 先 ， 为 航班 数据 创建 一 个 新 
的 数据 库 : 

hive> CREATE DATABASE flight_data; 


OK 
Time taken: 0.741 seconds 


然后 ， 为 准点 数据 和 查找 表 定义 模式 并 加 载 数 据 (出 于 可 读 性 考虑 ， 省 略 输出 和 添加 
换行 ) : 

































































hive> CREATE TABLE flights ( 

flight_date DATE, 
airline_code INT, 
carrier_code STRING, 
origin STRING, 
dest STRING, 
depart_time INT, 
depart_delta INT, 
depart_delay INT, 
arrive_time INT, 
arrive_delta INT, 
arrive_delay INT, 
is_cancelled BOOLEAN, 
cancellation_code STRING, 
distance INT, 
carrier_delay INT, 
weather_delay INT, 
nas_delay INT, 
security_delay INT, 
late _aircraft_delay INT 

ROW FORMAT DELIMITED 

FIELDS TERMINATED BY '\t' 

STORED AS TEXTFILE; 


hive> CREATE TABLE airlines ( 
code INT, 
description STRING 
) 
ROW FORMAT DELIMITED 
FIELDS TERMINATED BY '\t' 
STORED AS TEXTFILE; 


hive> CREATE TABLE carriers ( 
code STRING, 
description STRING 
) 
ROW FORMAT DELIMITED 
FIELDS TERMINATED BY '\t' 
STORED AS TEXTFILE; 


hive> CREATE TABLE canceLLation_reasons ( 
code STRING, 
description STRING 
) 
ROW FORMAT DELIMITED 
FIELDS TERMINATED BY '\t' 
STORED AS TEXTFILE; 


hive> LOAD DATA LOCAL INPATH 
'"sS{fenv:HOME}/hadoop-fundamentaLs/data/fLight_data/ontime_fLights.tsv' 
OVERWRITE INTO TABLE flights; 


hive> LOAD DATA LOCAL INPATH 
'$S{env:HOME}/hadoop-fundamentals/data/flight_ data/airlines.tsv' 
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OVERWRITE INTO TABLE airlines; 


hive> LOAD DATA LOCAL INPATH 
'${env:HOME}/hadoop-fundamentals/data/flight_ data/carriers.tsv’ 
OVERWRITE INTO TABLE carriers; 


hive> LOAD DATA LOCAL INPATH 
'${env:HOME}/hadoop-fundamentals/data/flight_data/ 
cancellation_reasons.tsv' 
OVERWRITE INTO TABLE cancellation_reasons; 


要 获取 航空 公司 及 其 各 自 的 平均 起 飞 延误 时 间 列 表 ， 只 需要 基于 航空 公司 代码 对 航班 和 航 
空 公司 执行 SQL JOIN， 然 后 使 用 聚合 函数 AvG() 计算 按 航 空 公司 描述 分 组 的 平均 depart_ 
delay: 


























hive> SELECT 
a.description, 
AVG(f.depart_delay) 
FROM airlines a 
JOIN flights f ON a.code = f.airline code 
GROUP BY a.description; 


AirTran Airways Corporation: FL 8.035840978593273 
Alaska Airlines Inc.: AS 4.746143501305276 
American Airlines Inc.: AA 10.085038790027395 
American Eagle Airlines Inc.: MQ 11.048787878787879 
Delta Air Lines Inc.: DL 8.149843785719728 
ExpressJet Airlines Inc.: EV 15.762459814292642 
Frontier Airlines Inc.: F9 12.319591084296967 
Hawaiian Airlines Inc.: HA 2.872051586628203 
JetBLue Airways: B6 12.090553084509766 

SkyWest Airlines Inc.: 00 10.086447897294379 
Southwest Airlines Co.: WN 14.722817981677437 

US Airways Inc.: US 7.363223345079652 

United Air Lines Inc.: UA 11.124291343587137 
Virgin America: VX 9.98681228106326 

Time taken: 22.786 seconds, Fetched: 14 row(s) 


如 你 所 见 ， 与 在 MapReduce 中 执行 连接 相 比 ， 在 Hive 中 执行 连接 可 以 显著 减少 编码 工作 
量 。 更 重要 的 是 ， 我 们 定义 的 结构 化 Hive 数据 模式 使 我 们 能 够 轻松 添加 或 更 改 查 询 。 让 
我 们 来 修改 查询 ， 返 回 按 飞 机 分 组 的 平均 起 飞 延误 时 间 : 


hive> SELECT 
c.description, 
AVG(f.depart_delay) 
FROM carriers c 
JOIN flights f ON c.code = f.carrier_ code 
GROUP BY c.description; 

















Aces Airlines (1992 - 2003) 9.98681228106326 

AirTran Airways Corporation (1994 - ) 8.035840978593273 
Alaska Airlines Inc. (1960 - ) 4.746143501305276 

American Airlines Inc. (1960 - ) 10.085038790027395 
American Eagle Airlines Inc. (1998 - ) 11.048787878787879 
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Atlantic Southeast Airlines (1993 - 2011) 15.762459814292642 
Delta ALr Lines Inc. (1960 - ) 8.149843785719728 
ExpressJet Airlines Inc. (2012 - ) 15.762459814292642 
Frontier Airlines Inc. (1960 - 1986) 8.035840978593273 
Frontier Airlines Inc. (1994 - ) 12.319591084296967 
Hawaiian Airlines Inc. (1960 - ) 2.872051586628203 
JetBLue Airways (2000 - ) 12.090553084509766 

Simmons Airlines (1991 - 1998) 11.048787878787879 
SkyWest Airlines Inc. (2003 - ) 10.086447897294379 
Southwest Airlines Co. (1979 - ) 14.722817981677437 

US Airways Inc. (1997 - ) 7.363223345079652 

USAir (1988 - 1997) 7.363223345079652 

United ALr Lines Inc. (1960 - ) 11.124291343587137 
Virgin America (2007 - ) 9.98681228106326 

Time taken: 22.76 seconds, Fetched: 19 row(s) 


Hive 可 能 比较 适用 于 这 些 使 用 场景 : 使 用 的 数据 集 的 格式 是 结构 化 的 、 基 于 表格 的 ， 要 进 
行 的 计算 是 面向 批 处 理 的 OLAP 查询 ， 而 不 是 实时 的 、 面 向 行 的 OLTP 事务 。 如 果 想 了 解 
更 多 有 关 使 用 和 优化 Hive 的 信息 ， 推 荐 你 阅读 以 示例 驱动 的 《Hive 编程 指南 》， 这 是 一 本 
非常 优秀 的 图 书 。 


6.2 HBase 


在 上 一 节 中 ， 我 们 了 解 了 如 何 使 用 Hive 对 存储 在 HDFS 中 的 大 型 结构 化 数据 集 执 行 基于 
SQL 的 分 析 。 但 我 们 也 发 现 ， 虽 然 Hive 在 Hadoop 中 提供 了 一 个 熟悉 的 数据 操作 范式 ， 但 
它 并 不 会 改变 存储 和 处 理 模 式 ， 而 是 仍然 以 批 处 理 方式 使 用 HDFS 和 MapReduce。 


回想 一 下 ， 由 于 HDFS 被 设计 为 写 一 次 、 读 多 次 (WORM) 的 文件 系统 ， 因 此 它 针 对 顺序 
读 取 进行 了 优化 ， 处 理 起 需要 对 数据 进行 频繁 或 快速 的 行 级 更 新 的 用 例 效率 低下 。 这 种 数 
据 访问 模式 通常 被 称 为 “随机 访问 ”"， 需 要 采用 这 种 实时 、 低 延迟 读 / 写 访问 的 应 用 程序 也 
越 来 越 多 。 以 呈 爆 炸 式 增长 的 实时 传感器 和 遥测 应 用 程序 为 例 ， 如 NOAA (https:Wwww. 
ncdc.noaa.gov/data-access/land-based-station-data) 使 用 的 从 远程 观测 站 收集 天 气 数据 的 应 用 
程序 或 NASA 用 于 记录 来 自 无 人 驾驶 飞船 的 数据 传输 的 深 空 网 络 (https://solarsystem.nasa. 
gov/basics/bsf18-1.php)。 这 些 应 用 程序 必须 存储 和 处 理 多 个 传输 设备 以 极 快 的 速率 传输 过 
来 的 大 量 事件 数据 ， 并 在 查询 数据 时 确保 数据 的 正确 性 或 一 致 性 。 因 此 ， 对 于 需要 对 数据 
进行 随机 、 实 时 读 / 写 访问 的 用 例 ， 需 要 在 标准 的 MapReduce 和 Hive 之 外 寻找 数据 持久 
层 和 处 理 层 技术 。 


对 许多 数据 分 析 应 用 程序 来 说 ， 使 用 传统 的 关系 方法 建 模 还 存在 挑战 。 像 Facebook 的 实时 
分 析 应 用 程序 “Insights for Websites” 平 台 (每 秒 跟踪 超过 20 万 个 事件 “) 和 StumbleUpon 
(http:Wwww.stumbleupon.com) 的 实时 推荐 系统 ,它们 需要 同时 记录 来 自 许多 数据 源 的 大 量 
数据 事件 。 这 些 类 型 的 实时 应 用 程序 需要 记录 大 量 基于 时 间 的 事件 ， 这 些 事件 往往 有 许多 























































































































注 4: Alex Himel, “Building Realtime Insights” (https://www.facebook.com/note.php?note_id=10150103900258920), 
Facebook Engineering note, 2011.03.05. 

注 5: Katie Gray, “Why We Love HBase” (http:/www.stumbleupon.com/blog/why-we-love-hbase/), StumbleUpon 
Official Blog, 2010.11.18. 
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种 可 能 的 结构 。 数 据 可 能 以 某 个 特定 值 为 键 〈 如 用 户 )， 但 值 通常 表示 为 任意 元 数据 的 集 
合 。 以 “Like” 和 “Share” 两 个 事件 为 例 ， 它 们 需要 不 同 的 列 值 ， 如 表 6-3 所 示 。 


表 6-3: 非 结构 化 事件 








事件 ID 事件 时 间 惟 事件 类 型 ”用 户 ID 文章 ID ”评论 接收 用 户 ID 
1 1370139285 Like jjones 521 

2 1370139285 Share smith 237 This is hilarious! 342 

3 1370139285 Share emiller 963 Great article 


这 些 类 型 的 数据 应 用 程序 有 存储 稀疏 数据 的 需求 。 在 关系 模型 中 ， 行 是 稀疏 的 ， 但 列 不 
是 ;也 就 是 说 ， 在 将 新 行 插入 表 后 ， 数 据 库 将 为 每 个 列 分 配 存储 空间 ， 不 管 该 字段 是 否 有 
值 。 然 而 ， 在 数据 被 表示 为 任意 字段 或 稀疏 列 的 集合 的 应 用 程序 中 ， 每 行 可 能 只 使 用 可 用 
列 的 一 部 分 ， 这 让 标准 关系 模式 既 浪 费 资源 又 别扭 。 


6.2.1 NoSQL 与 列 式 数据 库 


如 今 ， 许 多 现代 应 用 程序 都 面临 着 规模 和 敏捷 的 挑战 ，NoSQL 数据 库 也 因此 应 运 而 生 。 
NoSQL 是 一 个 广泛 的 概念 ， 通 常 指 非 关系 数据 库 ， 涵 盖 广 泛 的 数据 存储 模型 ， 包 括 图 形 数 
据 库 、 文 档 数 据 库 、 键 / 值 数据 存储 和 列 族 数据 库 。 


HBase 被 归 类 为 列 族 或 列 式 数据 库 ， 模 型 建立 在 Google 的 BigTable 架构 (http://research. 
google.com/archive/bigtable.html) 之 上 。 这 种 架构 让 HBase 具有 如 下 特性 : 


。 随机 ( 行 级 ) 读 / 写 访问 ， 
。 强大 的 一 致 性 ; 
。 “无 模式 ”或 灵活 的 数据 建 模 。 


HBase 处 理 数 据 建 模 的 方式 引入 了 无 模式 的 特点 ， 它 与 关系 数据 库 处 理 数 据 建 模 的 方式 非 
常 不 同 。HBase 将 数据 组 织 到 包含 行 的 表 中 。 在 表 中 ， 行 由 唯一 的 行 键 标识 ， 行 键 没有 数 
据 类 型 ， 而 是 作为 字 节 数组 被 存储 和 处 理 。 行 键 与 关系 数据 库 中 主键 的 概念 类 似 ， 都 被 自 
动 编 和 索引。 在 HBase 中 ， 表 行 按照 行 键 进 行 排序 ， 因 为 行 键 是 字 节 数组 ， 所 以 字符 串 、 
long 的 二 进 制 表示 ， 乃 至 序列 化 的 数据 结构 等 几乎 一 切 都 可 以 作为 行 键 。HBase 将 其 数据 
存储 为 键 值 对 ， 所 有 表 查 找 都 是 通过 表 的 行 键 或 存储 记录 数据 的 唯一 标识 符 执行 的 。 


一 行 中 的 数据 被 分 组 成 列 族 ， 它 们 由 相关 列 组 成 。 你 可 以 画 出 一 个 HBase 表 ， 让 它 包含 给 
定 人 口 的 人 口 普查 数据 ， 其 中 每 行 代表 一 个 人 ， 通 过 唯一 的 了 D 行 键 进行 访问 ， 每 行 包含 
个 人 数据 和 人 口 信息 的 列 族 ， 个 人 数据 的 列 族 包含 姓名 列 和 地 址 列 ， 人 口 信息 的 列 族 包含 
出 生日 期 列 和 性 别 列 。 该 示例 如 图 6-1 所 示 。 















































































































































PERSON 表 














图 6-1: HBase 模式 的 人 口 普查 数据 


数据 仓库 和 分 析 数 据 库 的 聚合 都 是 在 大 量 数据 上 进行 的 ， 这 些 数据 可 能 是 稀 玻 的 ， 即 不 是 
所 有 列 值 都 存在 ， 因 而 按 列 存储 数据 比 按 行 存储 的 优势 更 明显 。 尽 管 列 族 非常 灵活 ， 但 列 
族 在 实践 中 并 不 完全 是 无 模式 的 。 在 可 以 开始 将 数据 插入 特定 行 和 列 之 前 ， 列 族 就 已 经 被 
定义 了 ， 因 为 它们 会 影响 HBase 存储 数据 的 物理 格局 。" 然而， 可 以 根据 需要 确定 和 创建 
组 成 行 的 实际 列 。 事 实 上 ， 每 行 可 以 包含 不 同 的 列 。 图 6-2 展示 了 一 个 有 两 行 的 HBASE 
表 ， 第 一 个 行 键 使 用 了 三 列 族 ， 第 二 个 行 键 仅 使 用 一 列 。 








列 族 


行 键 







fcb75-bit.ly/ZOpngZ 
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higher dlickthrough rates for FB 
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图 6-2: 列 稀 琉 的 社交 媒体 事件 


HBase 和 基于 BigTable 的 列 式 数据 库 还 有 一 个 有 趣 的 特征 ， 那 就 是 表 的 单元 格 或 行 、 列 坐标 
的 交集 由 时 间 疏 进行 版 本 控制 ， 时 间 惟 存储 为 一 个 自 1970 年 1 月 1 日 UTC 以 来 的 长 整数 ， 
用 毫秒 表示 。 因 此 ，HBase 也 被 描述 为 一 个 多 维 的 map， 其 中 时 间 提 供 第 三 维度 ， 如 图 6-3 
所 示 。 时 间 维 度 以 递减 顺序 索引 ， 因 此 从 HBase 读 取 时 会 先 找 到 最 新 的 值 。 单 元 格 的 内 容 可 
以 由 {rowkey，column，timestamp} 元 组 引用 ,或 者 可 以 按时 间 范 围 扫描 一 系列 单元 格 值 。 











注 6: Amandeep Khurana, “Introduction to HBase Schema Design” ; login:, October 2012, Volume 37, Number 5. 
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6-3: HBase 时 间 戳 版 本 














介绍 完 HBase 模式 设计 的 主要 特性 ， 下 面 开 始 学 习 如 何 设计 和 查询 一 个 简单 的 HBase 表 ， 
用 于 假设 的 实时 链接 分 享 应 用 程序 。 此 处 假设 你 已 经 在 开发 环境 中 安装 并 配置 了 HBase， 
安装 和 配置 HBase 的 步骤 见 附 录 B。 











6.2.2 ”HBase 实 时 分 析 


可 以 使 用 HBase Shell 或 Java API (使 用 HBaseAdmin 接口 类 ,https://hbase.apache.org/apidocs/ 
org/apache/hadoop/hbase/client/HBaseAdmin.html) 创建 和 更 新 HBase 模式 。 此 外 ，HBase 
还 支持 其 他 许多 客户 端 ， 可 用 于 支持 非 Java 的 编程 语言 ， 比 如 REST API 接口 、Thrift 和 
Avro。 这 些 客户 端 是 包装 了 原生 Java API 的 代理 。 


为 了 概述 HBase， 我 们 定义 并 使 用 HBase shell 设计 了 一 个 链接 共享 跟踪 器 ， 用 来 跟踪 一 
个 链接 被 共享 的 次 数 。 但 在 现实 情况 中 ， 你 会 使 用 原生 Java API 或 受 支 持 的 客户 端 库 编 
写 应 用 程序 。 如 果 要 创建 外 部 网 关 客 户 端 ， 请 仔细 考虑 你 的 使 用 场景 。 需 要 高 吞吐 量 的 
应 用 程序 与 纯粹 的 二 进 制 格式 〈 如 Thrift 或 Avro) 更 配 ， 而 REST API 可 能 更 适合 低频 
率 的 大 请 求 。 

1. 生 成 模式 

在 HBase 中 设计 模式 时 ， 要 着 重 考虑 数据 模型 的 列 族 结构 以 及 它 对 数据 访问 模式 的 影响 。 
定义 传统 关系 数据 库 的 模式 主要 是 要 准确 表示 实体 和 实体 间 的 关系 ， 以 及 考虑 连接 和 索引 
等 方面 的 性 能 ， 但 成 功 的 HBase 模式 定义 往往 取决 于 应 用 程序 的 预 其 用例。 此外， 由 于 
HBase 不 支持 连接 并 且 只 提供 一 个 索引 的 行 键 ， 所 以 必须 要 小 心 ， 确 保 模式 可 以 完全 支持 
所 有 用 例 。 这 通常 涉及 使 用 嵌 套 实体 的 去 规范 化 和 数据 重复 。 


亚运 的 是 ， 由 于 HBase 支持 在 运行 时 进行 动态 列 定义 ， 所 以 即便 在 创建 表 之 后 ， 也 依然 有 
很 大 的 灵活 性 来 修改 和 扩展 模式 。 







































































注 7: 参见 Apache HBase Reference Guide 中 的 “Apache HBase Book External APIs” (http://hbase.apache.org/ 


book.html#external_apis ) 。 





2. 命 名 空间 、 表 和 列 族 


那么 模式 的 哪些 方 盏 


























ji 值得 仔细 考虑 呢 ? 首先 ， 需 要 在 定义 表 时 声明 表 名 和 至 少 一 个 列 族 


名 ; 还 可 以 声明 自己 的 可 选 命 名 空间 (从 Apache HBase v0.96.0 起 被 支持 ) 作为 表 的 逻 
辑 分 组 ， 与 关系 数据 库 系 统 中 的 数据 库 类 似 。 "如 果 没 有 声明 命名 空间 ，HBase 将 使 用 
default 命名 空间 : 


hbase> create 'linkshare', 'link' 
0 row(s) in 1.5740 seconds 


我 们 刚刚 在 defautt 命名 空间 中 创建 了 一 个 名 为 Linkshare 的 表 ， 它 有 一 个 名 为 Link 的 列 
族 。 要 想 在 创建 表 后 再 更 改 表 ， 例 如 更 改 或 添加 列 族 ， 需 要 先 禁用 该 表 ， 以 便 客户 端 在 
alter 操作 期 间 无 法 访问 该 表 : 





hbase> disable 'Linkshare' 
0 row(s) in 1.1340 seconds 


hbase> alter 'linkshare', 'statistics' 
Updating all regions with the new schema... 
1/1 regions updated. 

Done. 

0 row(s) in 1.1630 seconds 


然后 ， 使 用 enable 命令 重新 启用 该 表 : 


hbase> enable 'linkshare' 
0 row(s) in 1.1930 seconds 


使 用 describe 命令 验证 该 表 包 含 两 个 带 有 默认 配置 的 预期 列 族 : 





hbase> describe 'Linkshare' 


Table linkshare is ENABLED 

COLUMN FAMILIES DESCRIPTION 

{NAME => 'link', DATA_BLOCK_ENCODING => 'NONE', BLOOMFILTER => 'ROW', 
REPLICATION_SCOPE => '0', COMPRESSION => 'NONE', VERSIONS => '1'， 

TTL => 'FOREVER', MIN_VERSIONS => '0', KEEP_DELETED_ CELLS => 'FALSE', 
BLOCKSIZE => '65536', IN_MEMORY => 'false', BLOCKCACHE => 'true'} 
{NAME => 'statistics', DATA_BLOCK_ENCODING => 'NONE', 

BLOOMFILTER => 'ROW', REPLICATION_SCOPE => '0', VERSIONS => '1'， 
COMPRESSION => 'NONE', MIN_VERSIONS => '0', TTL => 'FOREVER', 
KEEP_DELETED_CELLS => 'FALSE', BLOCKSIZE => '65536', 

IN_MEMORY => 'false', BLOCKCACHE => 'true'} 

2 row(s) in 0.1290 seconds 


这 样 就 创建 了 一 个 有 两 个 列 族 (Link 和 statistics) 的 HBase 表 (linkshare), 但 是 这 个 
表 还 不 包含 任何 行 。 在 插入 行 数据 之 前 ， 需 要 确定 如 何 设计 行 键 。 
3. 行 键 

良好 的 行 键 设 计 不 仅 会 影响 查询 表 的 方式 ， 也 会 影响 数据 访问 的 性 能 和 复杂 性 。 默 认 情 况 
下 ，HBase 根据 行 键 按 顺 序 存储 行 ， 因 此 类 似 的 键 存 储 在 同一 个 RegionServer 中 。 虽 然 这 




















注 8: 参见 Apache HBase Reference Guide 中 的 “Namespace” (http://hbase.apache.org/book.html#namespace)。 
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样 可 以 更 快 地 进行 扫描 范围 ， 但 在 读 / 写 操作 期 间 ， 它 也 可 能 导致 个 别 服务 器 的 负载 不 均 
名 ( 称 为 “RegionServer hotspotting”)。 因 此 ， 除 了 要 实现 我 们 的 数据 访问 用 例 之 外 ， 还 需 
要 芳 虑 各 个 region 之 间 的 行 键 分 布 。 

以 当前 示例 为 例 ， 假 设 我 们 使 用 唯一 的 反 向 链接 URL 作为 行 键 。 强 烈 推 荐 你 阅读 
“Apache HBase Reference Guide” 中 的 “HBase and Schema Design” (http://hbase.apache. 
org/0.94/book/schema.html) ， 了 解 优秀 的 行 键 设计 案例 。 


4. 使 用 put 插 入 数据 
现在 这 个 表 可 以 存储 数据 了 一 一 我 们 想 在 Linkshare 应 用 程序 中 存储 关于 链接 的 描述 性 数 
据 (例如 其 标题 )， 同 时 维护 一 个 跟踪 链接 共享 次 数 的 频率 计数 器 。 


我 们 可 以 在 指定 的 表 / 行 / 列 和 可 选 时 间 惟 坐标 的 单元 格 中 插入 或 put 一 个 值 。 要 将 一 个 
单元 格 值 放 入 Linkshare 表 、 行 键 为 org.hbase.www 的 行 、Link 列 族 下 的 当前 时 间 改 的 
title 列 ， 可 以 执行 以 下 操作 : 

hbase> put 'linkshare', 'org.hbase.www', 'link:title', 'Apache HBase' 


hbase> put 'linkshare', 'org.hadoop.www', 'link:title', 'Apache Hadoop’ 
hbase> put 'linkshare', 'com.oreilly.www', 'link:title', 'O\'Reilly.com' 


put 操作 在 插入 单个 单元 格 的 值 时 非常 有 用 ， 而 对 于 增加 频率 计数 器 的 值 ，HBase 提供 了 
一 种 将 列 作为 计数 器 来 处 理 的 特殊 机 制 。 否 则 ， 在 负载 较 重 的 情况 下 ， 我 们 可 能 会 遇 到 针 
对 这 些 行 的 激烈 竞争 ， 因 为 我 们 需要 锁定 行 ， 读 取 值 ， 增 加 值 ， 写 回 ， 最 后 再 解锁 该 行 ， 
让 其 他 写 入 过 程 能 够 访问 该 单元 格 。” 

使 用 incr 命令 ， 而 不 是 put 来 增加 计数 器 的 值 : 


hbase> incr 'linkshare', 'org.hbase.www', 'statistics:share'’, 1 
(COUNTER VALUE is now 1) 






























































hbase> incr 'linkshare', 'org.hbase.www', 'statistics:like', 1 
(COUNTER VALUE is now 1) 


最 后 一 个 被 传递 的 选项 是 增 量 值 ， 在 这 个 例子 中 为 1。 增 加 计数 器 的 值 将 返回 更 新 后 的 计 
数 器 值 ， 但 你 也 可 以 随时 使 用 get_counter 命令 访问 计数 器 的 当前 值 ， 指 定 表 名 、 行 键 和 
列 即 可 : 


hbase> incr 'linkshare', 'org.hbase.www', 'statistics:share'’, 1 
(COUNTER VALUE is now 2) 




















hbase> get_ counter 'linkshare', 'org.hbase.www', 'statistics:share’, ‘dummy' 
COUNTER VALUE = 2 


get_counter 方法 用 于 解码 计数 器 的 字 节 数组 值 ， 并 返回 整数 值 。 不 幸 的 是 ， 最 新 版 本 的 
HBase 在 获取 计数 器 值 的 shell 命令 中 引入 了 一 个 bug 一 一 该 命令 的 第 4 个 参数 没有 作用 。 
因此 ， 需 要 传递 哑 值 作为 第 4 个 参数 : 



































注 9:《HBase 权威 指南 》，Lars George 著 。 





hbase> get_counter 'linkshare', 'org.hbase.www', 'statistics:share' ， 'dummy 
COUNTER VALUE = 2 


HBase 提供 了 从 表 中 检索 数据 的 两 种 通用 方法 : get 命令 通过 行 键 执行 查找 ， 从 而 检索 特 
定 行 的 属性 ，scan 命令 接受 一 组 过 滤器 规范 ， 并 根据 指定 的 规范 进行 多 行 迭 代 。 

5. 获取 行 或 单元 格 值 
最 简单 的 形式 是 ，get 命令 接受 表 名 与 行 键 ， 返 回 行 中 所 有 列 的 最 新 版 本 的 时 间 惟 和 站 
格 值 : 


hbase> get 'linkshare', 'org.hbase.www' 





J 








dl 








COLUMN CELE 
link:title timestamp=1422145743298, value=Apache HBase 
statistics:like timestamp=1422153344211,， 
value=\xO0\xO0\xO0\xO0\xO0\xO0\xO0\x1F 
statistics:share timestamp=1422153337498， 


value=\x00\x00\x00\x00\x00\x00\x00\x02 
3 row(s) in 0.0310 seconds 


请 注意 ，statistics:share 列 返 回 它 的 字 节 数组 表示 的 值 ， 并 将 每 个 字 节 打印 为 十 六 进 制 
值 。 要 显示 计数 器 值 的 整数 表示 ， 可 以 使 用 上 一 节 中 提 到 的 get_counter 命令 。 


get 命令 还 接受 可 选 的 参数 字典 ， 用 来 指定 要 检索 的 单元 格 值 的 列 、 时 间 戳 、 时 间 范 转 
(timerange) 和 版 本 。 例 如 ， 可 以 指定 感 兴趣 的 列 : 
hbase> get 'linkshare', 'org.hbase.www', {COLUMN => 'link:title'} 


hbase> get 'linkshare', 'org.hbase.www', {COLUMN => ['link:title', 
'statistics:share']} 


还 有 一 种 在 get 中 指定 列 参 数 的 快捷 方式 ， 就 是 在 行 键 之 后 加 上 以 逗号 分 隔 的 列 名 称 : 


hbase> get 'linkshare', 'org.hbase.www', 'link:title' 
hbase> get 'linkshare', 'org.hbase.www', 'link:title', 'statistics:share' 
hbase> get 'linkshare', 'org.hbase.www', ['link:title', 'statistics:share'] 


为 了 指定 感 兴趣 的 值 的 时 间 范 围 ， 传 入 一 个 有 开始 时 间 改 和 结束 时 间 戳 (以 毫秒 为 单位 ) 
的 TIMERANGE 参数 : 


























hbase> get 'linkshare', 'org.hbase.www', {TIMERANGE => [1399887705673， 
1400133976734]} 


如 果 和 希望 获取 一 定数 量 的 先前 版 本 的 单元 格 值 ， 而 不 是 显 式 的 时 间 惟 范围 ， 可 以 指定 感 兴 
趣 的 列 ， 并 使 用 VERSIONS 参数 指定 要 检索 的 版 本 数 : 


hbase> get 'linkshare', 'org.hbase.www', {COLUMN => 'statistics:share', 
VERSIONS => 2} 


虽然 这 种 类 型 的 范围 查询 似乎 对 递增 为 1 的 计数 器 值 意义 不 大 ， 但 它 为 我 们 提供 了 确定 分 
享 计数 器 递增 速率 的 方法 ， 可 以 用 它 来 确定 链接 是 否 为 病毒 。 此 外 ， 这 些 类 型 的 范围 过 站 
器 在 执行 “即时 ”查询 时 尤其 有 用 ， 例 如 检查 在 一 定时 间 范 围 内 的 指标 。 
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6. 扫描 行 

scan 操作 类 似 于 数据 库 游标 或 迭代 器 ， 利 用 底层 顺序 存储 机 制 ， 根 据 scanner 规格 进 代 行 
数据 。 可 以 使 用 scan 扫描 整个 HBase 表 或 指定 范围 的 行 。 

scan 的 用 法 和 get 类似， 它 也 接受 COLUMN、TIMESTAMP、TIMERANGE 利 | FILTER 参数。 但是， 
你 不 能 指定 单个 行 键 ， 而 是 要 指定 一 个 可 选 的 STARTRON 和 /或 STOPROW 参数 ， 将 扫描 限制 
在 特定 的 行 范 围 内 。 如 果 不 提供 STARTRON 和 STOPRON，scan 操作 将 扫描 整个 表 。 


事实 上 ， 你 可 以 将 表 名 称 作 为 参数 调用 scan， 从 而 显示 表 的 所 有 内 容 : 


hbase> scan 'Linkshare' 














ROW COLUMN+CELL 

com.oreilly .www column=link:title, timestamp=1422153270279， 

value=0'Reilly.com 

org.hadoop.www column=link:title, timestamp=1422153262507， 

value=Apache Hadoop 

org.hbase .www column=link:title, timestamp=1422145743298， 

value=Apache HBase 

org.hbase.www column=statistics:like, timestamp=1422153344211,， 
value=\x00\x00\xO0\x00\x00\x00\x00\x1F 

org.hbase .www column=statistics:share, timestamp=1422153337498,， 


value=\xO0\xO0\xO0\x00\x00\x00\x00\x02 
3 row(s) in 0.0290 seconds 


请 记 住 ，HBase 中 的 行 以 字典 顺序 存储 。” 例如 ，1~100 将 按 如 下 顺序 排序 : 


1,10,100,11,12,13,14,15,16,17,18,19,2,20,21,...,9,91,92,93,94,95,96,97,98,99 


扫描 org.hbase.www 行 之 后 行 的 Link:title 列 : 
hbase> scan 'linkshare', {COLUMNS => ['link:title'], STARTROW => 'org.hbase.www'} 
ROW COLUMN+CELL 
org.hbase .www column=link:title, timestamp=1453184861236,， 


value=Apache HBase 
1 row(s) in 0.0250 seconds 


但 是 STARTROW 和 ENDROW 的 值 不 需要 行 键 的 完全 匹配 。 它 将 匹配 大 于 等 于 给 定 起 始 行 且 小 
于 等 于 结束 行 的 第 一 个 行 键 ， 因 为 这 些 参数 是 包含 端点 的 (inclusive)， 所 以 如 果 ENDROW 
的 值 与 STARTROW 相同 ， 就 不 需要 指定 ENDROW 了 : 


hbase> scan 'linkshare', {COLUMNS => ['link:title'], STARTROW => 'org'} 
































ROW COLUMN+CELL 

org.hadoop .www CoOLumn=Link:titLe，timestamp=1422153262507， 
value=Apache Hadoop 

org.hbase.www CoOLumn=Link:titLe，timestamp=1422145743298 ， 


value=Apache HBase 
2 row(s) in 0.0210 seconds 





注 10: 参见 Apache HBase Reference Guide 中 的 “Data Model: Rows” (http://hbase.apache.org/book.html# datamodel) 。 
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7. 过 滤器 

HBase 提供 了 一 些 过 滤器 类 ， 可 以 进一步 过 滤 get 或 scan 操作 返回 的 行 数据 。 这 些 过 滤器 
可 以 提供 更 有 效 的 手段 来 限制 HBase 返回 的 行 数据 ， 并 将 行 过 滤 操 作 的 负担 从 客户 端 转移 
到 服务 器 。HBase 可 用 的 一 些 过 滤器 包括 : 


RowFilter ( http://bit.ly/1r1Y7Ez ) 

基于 行 键 值 进 行 数 据 过 滤 。 

ColumnRangeFilter (http://bit.ly/1rl1Yb7m ) 
支持 高 效 的 行内 扫描 ， 可 用 于 获取 非常 宽 的 行 的 部 分 列 (也 就 是 说 ， 当 一 行 有 100 万 列 
时 ， 你 只 想 查 看 列 bbbb-bbdd)。 


SingleColumnValueFilter (http://bit.ly/1r1Yf70 ) 
基于 列 值 过 滤 单 元 格 。 


RegexStringComparator (http://bit.ly/1r1Ydft ) 
用 于 检验 给 定 正则 表达 式 是 否 与 列 中 的 单元 格 值 匹配 。 


HBase 的 Java API (https://hbase.apache.org/apidocs/) 提供 了 一 个 Filter (http://bit.ly/1r1YizN) 
接口 、 一 个 FilterBase 抽象 类 (http://bit.ly/1r1YizN)， 以 及 一 些 专用 的 Filter 子 类 (http:// 
bit.ly/1r1YsXP)。 也 可 以 通过 继承 FilterBase 抽象 类 并 实现 关键 抽象 方法 来 创建 自 定义 过 
最 好 在 Java 程序 中 使 用 HBase API 来 应 用 HBase 过 滤器 ， 因 为 它们 通常 需要 导入 多 个 依 
赖 的 过 滤器 和 比较 器 类 ， 但 是 我 们 可 以 在 shell 中 演示 一 个 过 滤器 的 简单 示例 。 


首先 ， 导 入 必需 的 类 ， 包 括 用 于 将 列 族 、 列 和 值 转换 为 字 节 的 org.apache.hadoop.hbase. 
util.Bytes、 过 滤器 和 比较 器 类 


hbase> import org.apache.hadoop.hbase.util.Bytes 

hbase> import org.apache.hadoop.hbase.filter.SingleColumnValueFilter 
hbase> import org.apache.hadoop.hbase.filter.BinaryComparator 
hbase> import org.apache.hadoop.hbase.filter.CompareFilter 


接 下 来 ， 创 建 一 个 过 滤器 ， 和 饰 选 出 statistics:like 列 值 = 10 的 行 : 


hbase> likeFilter = SingleColumnValueFilter.new(Bytes.toBytes('statistics'), 
Bytes.toBytes(' like'), 
CompareFiLter::Compare0p.vaLueOf(' GREATER_OR_EQUAL ' ) ， 
BinaryComparator .new(Bytes.toBytes(10))) 


因为 不 是 所 有 行 的 该 列 都 有 值 ， 所 以 需要 设置 一 个 标志 ， 告 诉 过 滤器 跳 过 该 列 没有 值 
的 行 : 


hbase> likerilter.setFilterIfMissing(true) 


此 时 就 可 以 使 用 配置 好 的 过 滤器 运行 scan 操作 了 : 


hbase> scan 'linkshare', { FILTER => likeFilter } 

































































ROW COLUMN+CELL 
org.hbase.www COLumn=Link:titLe，timestamp=1422145743298 ， 
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value=Apache HBase 


org.hbase.www column=statistics:like, timestamp=1422153344211,， 
value=\x00\x00\x00\x00\x00\x00\x00\x1F 
org.hbase .www column=statistics:share, timestamp=1422153337498,， 


value=\x00\x00\x00\x00\x00\x00\x00\x02 
1 row(s) in 0.0470 seconds 


这 段 代 码 应 该 返回 statistics:1tike 的 列 值 10 的 所 有 行 ， 本 示例 可 能 包括 行 键 com.oreilly. 


WwW。 


8. HBase 的 拓展 阅读 

HBase 在 存储 大 量 结构 灵 话 的 流 式 数据 时 非常 有 用 ， 它 还 能 一 次 查询 该 数据 的 一 小 块 ， 同 
时 确保 : 

。 数据 “完整 ”( 如 销售 或 财务 数据 ) ; 

。 数据 会 随时 间 变 化 ; 

。 可 以 查询 和 更 新 单行 和 部 分 行 和 列 。 

HBase 并 不 是 RDBMS、HDFS 或 者 Hive 的 奉 代 品 ， 而 是 提供 了 一 种 方法 ， 在 利用 Hadoop 
的 数据 可 扩展 性 的 同时 ， 实 现 对 数据 的 随机 访问 。HBase 可 以 与 传统 的 SQL 或 Hive 结合 ， 
以 支持 需要 的 查询 快照 、 范 围 和 聚合 数据 。 

有 关 使 用 和 集成 HBase 的 更 多 信息 ， 建 议 你 查阅 官方 的 “Apache HBase Reference Guide” 
(http://hbase.apache.org/book.html) 以 及 Lars George 所 著 的 《Hbase 权威 指南 》。 


6.3 小 结 


本 章 介 绍 了 Hive 和 HBase。 许 多 人 把 Hive 当 作 Hadoop 中 SQL 查询 的 事实 标准 ， 把 
HBase 当 作 在 Hadoop 之 上 运行 的 、 最 流行 的 NoSQL 数据 库 之 一 。 但 在 深入 了 解 Hadoop 
数据 分 析 之 后 ， 你 会 发 现 数据 仓储 和 数据 挖掘 领域 中 还 有 许多 Hadoop 项 目 和 工具 值得 研 
究 ， 不 过 这 超出 了 本 书 的 范围 。 
除了 Hive 之 外 ， 还 有 其 他 几 个 查询 引擎 也 可 以 对 HDFS 或 HBase 进行 SQL 查询 。Impala 
(http://impala.io) 通过 执行 本 地 内 存 计 算 来 提供 低 延 迟 查 询 ， 从 而 避免 了 执行 MapReduce 
作业 的 开销 ，Spark SQL (https://spark.apache.org/sql/) 通过 运行 查询 (如 Spark 作业 ) 也 
支持 高 性 能 SQL 查询 。 

Hadoop 的 优势 在 于 ， 它 可 以 灵活 地 支持 和 使 用 许多 查询 和 处 理 引 擎 ， 选 择 最 适合 特定 用 
例 的 工具 。 有 关 Hadoop 其 他 数据 仓储 和 数据 挖掘 解决 方案 (包括 其 他 SQL-on-Hadoop 项 
目 ) 的 更 多 信息 ， 请 参见 Mark Grover、Ted Malaska、Jonathan Seidman 和 Gwen Shapira 
合 著 的 《Hadoop 应 用 架构 》。 
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数据 采集 





Hadoop 最 突出 的 一 个 优点 在 于 它 天 生 就 是 无 模式 的 。 只 要 实现 Hadoop 的 Writable 接口 或 
DBWritable 接口 并 编写 正确 解析 数据 的 MapReduce 代码 ，Hadoop 就 可 以 使 用 任何 来 源 、 
任何 类 型 或 任何 格式 的 数据 ， 不 管 其 结构 如 何 〈 或 是 否 缺 少 结构 )。 然 而 ， 如 果 输 入 数据 
驻 留 在 关系 数据 库 中 且 已 结构 化 ， 使 用 数据 已 知 的 模式 可 以 更 方便 地 将 数据 导入 Hadoop; 
这 种 方法 也 比 将 CSV 上 传 到 HDFS 并 手动 解析 更 高 效 。 


Sqoop 用 于 在 关系 数据 库 管 理 系统 (relational database management system, RDBMS) 和 
Hadoop 之 间 传 输 数据 。 它 依靠 RDBMS 为 要 导入 的 数据 提供 模式 描述 ， 让 大 部 分 数据 转 
换 过 程 自动 化 。 我 们 将 在 本 章 中 看 到 ， 对 于 将 关系 数据 库 作 为 主要 或 中 间 数 据 存储 的 数据 
基础 设施 来 说 ，Sqoop 是 分 析 流 程 中 一 个 非常 有 用 的 环 市 。 

虽然 用 Sqoop 将 已 经 驻 留 在 关系 数据 库 中 的 数据 大 批量 加 载 到 Hadoop 中 并 无 不 妥 ， 但 许 
多 新 的 应 用 程序 和 系统 涉及 快速 流动 的 数据 ， 如 应 用 程序 日 志 、GPS 追踪 、 社 交 媒 体 动态 
和 传感器 数据 。 我 们 需要 将 这 些 数 据 直 接 加 载 到 HDFS 中 ， 从 而 在 Hadoop 中 进行 处 理 。 
为 了 应 对 高 否 吐 量 并 处 理由 这 些 系统 生成 的 基于 事件 的 数据 ， 就 需要 支持 从 多 个 源 持续 采 
集 数据 到 Hadoop 中 。 


Apache Flume 旨 在 从 大 量 不 同 来 源 高 效 地 采集 、 聚 合 和 移动 大 量 日 志 数据 到 集中 的 数据 
存储 中 。 虽 然 Flume 通常 用 于 将 流 式 日 志 数 据 引 入 Hadoop (通常 是 HDFS 或 HBase)， 但 
实际 上 Flume 的 数据 源 非常 灵活 ， 可 以 通过 自 定义 向 它 兼 容 的 任何 消费 者 传输 各 种 类 型 的 
事件 数据 ， 包 括 网 络 流量 数据 、 社 交 媒 体 生成 的 数据 和 传感器 数据 。 本 章 将 介绍 如 何 使 用 
Flume 从 自 定义 日 志 中 采集 流 式 数据 并 将 其 传输 到 Hadoop。 
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7.1 使 用 Sqoop 导 入 关系 数据 


Sqoop (SQL-to-Hadoop) 是 由 Cloudera 创建 的 关系 数据 库 导入 /导出 工具 , 现在 是 Apache 
顶级 项 目 。Sqoop 的 设计 初衷 是 在 关系 数据 库 (例如 MySQL 或 Oracle) 和 Hadoop 数据 存 
储 ( 例 如 HDFS、Hive 和 HBase) 之 间 传 输 数据 。 它 通过 直接 从 RDBMS 读 取 模式 信息 ， 
自动 执行 大 部 分 数据 传输 过 程 ， 然 后 使 用 MapReduce 将 数据 导入 和 导出 Hadoop。” 

Sqoop 在 将 数据 维持 在 生产 状态 的 同时 ， 将 其 复制 到 Hadoop 中 ， 从 而 进行 进一步 分 析 ， 
避免 修改 生产 数据 库 。 我 们 将 介绍 几 种 使 用 Sqoop 将 数据 从 MySQL 数据 库 导 入 Hadoop 
数据 存储 (例如 HDFS、Hive 和 HBase) 的 方法 。 


本 章 的 Sqoop 示例 假设 MySQL 数据 库 安装 在 Sqoop 所 在 的 主机 上 且 可 
通过 localhost 访问 。 要 安装 和 配置 本 地 MySQL 数据库， 请 遵循 MySQL 
网 站 上 的 官方 安装 指南 (https://dev.mysql.com/doc/mysql-apt-repo-quick- 
guide/en/) 或 Linode 网 站 上 的 简明 指南 (https://www.linode.com/docs/ 
databases/mysql/install-mysql-on-ubuntu-14-04/)。 请 记 住 ， 大 多 数 命 令 需 
要 使 用 sudo; 而 且 ， 不 要 为 servername 设置 主机 名 ， 因 为 这 会 在 党 试 通过 
localhost 连接 时 发 生 冲 突 。 















































本 章 假设 你 已 经 安装 了 与 你 的 Hadoop 版 本 兼容 的 Sqoop 最 新 稳定 版 本 ， 将 Hadoop 配置 为 
了 伪 分 布 式 模式 ， 并 且 所 有 HDFS 和 YARN 进程 也 在 运行 中 。 本 章 将 使 用 MySQL 作为 示 
例 的 源 和 目标 RDBMS， 因 此 还 假设 MySQL 数据 库 与 Hadoop/Sqoop 服务 位 于 相同 的 主机 
上 ， 可 通过 localhost 和 默认 端口 3306 访问 。 安 装 Sqoop 并 配置 MySQL 的 步骤 可 以 在 附 
录 B 中 找到 。 


7.1.1 从 MySQL 导 入 HDFS 


从 关系 数据 库 (如 MySQL) 导入 数据 时 ，Sqoop 会 从 源 数据 库 读 取 导 入 数据 所 需 的 元 数 
据 ， 然 后 提交 一 个 仅 有 map 的 Hadoop 作业 ， 根 据 上 一 步 捕获 的 元 数据 ， 传 输 实际 的 表 
数据 。 访 作业 会 生成 一 组 序列 化 文件 ， 比 如 以 符号 分 隔 的 文本 文件 、 二 进 制 格 式 (例如 
Avro) 文件 , 或 包含 导入 的 表 或 数据 集 副本 的 SequenceFile 文件 。 默认 情况 下 ,文件 以 逗 
号 分 隔 ， 并 保存 在 HDFS 目录 中 ， 目 录 名 称 与 源 表 名 称 相对 应 。 我 们 将 使 用 这 些 默认 设置 
将 数据 从 MySQL 导入 HDFS。 


假设 MySQL 已 经 安装 好 了 ， 继 续 下 一 步 ， 创 建 一 个 有 一 些 表 和 数据 的 示例 数据 库 。 首 先 
创建 一 个 名 为 energydata 的 数据 库 和 一 个 名 为 average_price_by_state 的 表 : 


~$ mysql -uroot -p 





















































mysql> CREATE DATABASE energydata; 





注 1: Aaron Kimball“Cloudera 一 Introducing Sqoop”(https://blog.cloudera.com/blog/2009/06/introducing-sqoop/), 
Cloudera Engineering Blog, June 1, 2009. 

注 2: 参见 Sqoop User Guide (http://sqoop.apache.org/docs/1.4.6/SqoopUserGuide.htm!l) 。 

注 3: 参见 Sqoop User Guide 中 的 “Basic Usage” (http:Wbitly/lr23vHN ) 。 





Query OK, 1 row affected (0.00 sec) 


mysql> GRANT ALL PRIVILEGES ON energydata.* TO '%'Q'LocaLhost ' ; 
Query OK, © rows affected (0.00 sec) 


mysql> GRANT ALL PRIVILEGES ON energydata.* TO ''@'localhost'; 
Query OK, © rows affected (0.00 sec) 


mysql> USE energydata; 


mysql> CREATE TABLE average_ price by_state( 
year INT NOT NULL, 
state VARCHAR(5) NOT NULL, 
sector VARCHAR(255), 
residential DECIMAL(10,2), 
commercial DECIMAL(10 ,2)， 
industrial DECIMAL(10 ,2)， 
transportation DECIMAL(10,2), 
other DECIMAL(10,2), 
total DECIMAL(10,2) 

); 

Query OK, © rows affected (0.02 sec) 


mysql> quit; 


加 载 到 average_price_by_state 表 中 的 数据 由 美国 能 源 信息 署 (http://www.eia.gov/electricity/ 
data/state/) 提供 ， 这 些 数据 是 1990 年 至 2012 年 期 间 各 年 各 州 和 各 供应 商 每 千瓦 时 (KwH) 
的 平均 电价 。 你 可 以 在 本 书 GitHub 仓库 的 /data 目录 中 找到 名 为 avgprice_ kwh_state.zip 的 
压缩 文件 ， 其 中 包含 名 为 avgprice_ kwh_state.csy 的 CSV 文件 。 下 载 该 文件 并 将 其 加 载 到 
刚刚 创建 的 MySQL 表 中 : 


~$ mysql -h localhost -u root -p energydata --local-infile=1 























mysql> LOAD DATA LOCAL INFILE 
'/home/hadoop/hadoop-fundamentals/data/avgprice_kwh_state.csv' 
INTO TABLE average_price_by_state 
FIELDS TERMINATED BY ',' 
LINES TERMINATED BY '\n' IGNORE 1 LINES; 


Query OK, 3272 rows affected, 6 warnings (0.03 sec) 
Records: 3272 Deleted: 0 Skipped: 0 Warnings: 6 


mysql> quit; 


在 运行 Sqoop 的 import 命令 之 前 ， 使 用 jps 命令 验证 HDFS 和 YARN 是 否 已 启动 : 





~$ sudo su hadoop 
hadoop@ubuntu:~$ jps 


4051 NodeManager 

31134 Jps 

3523 DataNode 

3709 SecondaryNameNode 
3375 NameNode 

3921 ResourceManager 
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此 时 ， 使 用 import 命令 将 表 average_price_by_state 中 的 数据 导入 HDFS。 可 以 分 别 


--connect 选项 、--username 选项 和 --table 选项 来 指定 源 数 据 库 的 连接 字符 串 、 用 户 名 和 


表 名 。 将 可 选 的 -m 标 志 设 置 为 1， 表 示 该 作业 使 用 单个 map 任务 : 


/srv/sqoop$ sqoop import --connect jdbc:mysqL://LocaLhost:3306/energydata 
--Username root --table average price by _state -m 1 





15/01/20 22:47:35 INFO sqoop.Sqoop: Running Sqoop version: 1.4.6 

15/01/20 22:47:35 INFO manager .MySQLManager: Preparing to use a MySQL 
streaming resultset. 

15/01/20 22:47:35 INFO tool.CodeGenTool: Beginning code generation 

15/01/20 22:47:36 INFO manager.SqlManager: Executing SQL statement: 
SELECT 七 .* FROM ‘average price by_state AS 七 LIMIT 1 


(output truncated) 
15/01/25 22:47:53 INFO mapreduce.ImportJobBase: Transferred 200.4287 KB in 


15.3718 seconds (13.0387 KB/sec) 
15/01/25 22:47:53 INFO mapreduce.ImportJobBase: Retrieved 3272 records . 





在 本 例 中 ， 因 为 表 不 包含 主键 ， 而 主键 是 分 割 和 合并 多 个 map 任务 所 必需 的 ， 所 以 需 





要 指 


定 import 命令 使 用 单个 map 任务 。 因 为 指定 了 导入 任务 使 用 一 个 map 任务 ， 所 以 HDFS 








只 有 一 个 文件 : 
/srv/sqoop$ hadoop fs -head average price by_state/part-m-00000 | head 


2012,AK,Total Electric Industry,17.88,14.93,16.82,0.00,null,16.33 
2012,AL ,Total Electric Industry,11.40,10.63,6.22,0.00,null,9.18 
2012,AR,Total Electric Industry,9.30,7.71,5.77,11.23,null,7.62 
2012 ,AZ,TotaL Electric Industry,11.29,9.53,6.53,0.00,null,9.81 
2012,CA,Total Electric Industry,15.34,13.41,10.49,7.17,null,13.53 
2012,C0,Total Electric Industry,11.46,9.39,6.95,9.69,null,9.39 
2012,CT,Total Electric Industry,17.34,14.65,12.67,9.69,null,15.54 
2012,DC,Total Electric Industry,12.28,12.02,5.46,9.01,null,11.85 
2012,DE,Total Electric Industry,13.58,10.13,8.36,0.00,null,11.06 
2012,FL,Total Electric Industry,11.42,9.66,8.04,8.45,null,10.44 


我 们 现在 已 经 成 功 将 数据 从 MySQL 导入 HDFS 了 ! 至此， 就 可 以 对 导入 的 数据 进 





行 后 


续 的 MapReduce 处 理 ， 或 将 数据 加 载 到 另 一 个 Hadoop 数据 源 中 (例如 Hive、HBase 或 


HCatalog ) 。 


7.1.2 从 MySQL 导 入 Hive 





因为 关系 数据 库 (在 本 例 中 是 MySQL) 中 的 数据 已 经 是 结构 化 的 ， 所 以 将 这 些 数据 导入 
Hive 中 与 源 数据 库 类 似 的 模式 也 大 有 用 处 ， 尤 其 当 你 打算 对 数据 运行 关系 查询 时 。Sqoop 
提供 了 两 种 方法 : 一 种 是 先 将 数据 导出 到 HDFS， 再 在 Hive shell 中 使 用 LOAD DATA HQL 命 
令 将 其 加 载 到 Hive 中 ， 另 一 种 是 使 用 Sqoop 直接 创建 表 ， 并 将 关系 数据 库 数据 加 载 到 相 





























应 的 Hive 表 中 。 


使 用 import 命令 ，Sqoop 可 以 根据 源 数据 库 定义 的 模式 生成 Hive 表 ， 并 将 源 数 据 库 表 中 





的 数据 加 载 进来 。 但 由 于 Sqoop 实际 上 仍然 使 用 MapReduce 来 实现 数据 加 载 操 作 ， 因 





运行 导入 工具 之 前 ， 必 须 删除 所 有 与 输出 名 称 相同 的 已 有 数据 目录 : 


此 在 





大 
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/srv/sqoop$ hadoop fs -rm -r /user/hadoop/average_price_by_state 


然后 运行 Sqoop 的 import 命令 ， 将 数据 库 的 JDBC 连接 字符 串 、 表 名 、 字 段 分 隔 符 、 行 终 
止 符 和 null 字符 串 值 传递 给 它 : 


/srv/sqoop$ sqoop import --connect jdbc:mysqL://LocaLhost:3306/energydata 
--Username root --table average price_by_state 
--hive-import --fields-terminated-by ',' 
--lines-terminated-by '\n' --null-string 'null' -m 1 





(output truncated) 


15/01/20 00:14:37 INFO hive.HiveImport: Table default.average_price by_state stats: 
[numFiles=2, numRows=0, totalSize=205239, rawDataSize=0] 

15/01/20 00:14:37 INFO hive.HiveImport: OK 

15/01/20 00:14:37 INFO hive.HiveImport: Time taken: 0.435 seconds 

15/01/20 00:14:37 INFO hive.HiveImport: Hive import complete. 

15/01/20 00:14:37 INFO hive.HiveImport: Export directory is empty, removing it. 


Hive 会 将 double 类 型 的 列 转换 为 float 类 型 ， 并 去 掉 所 有 NOT NULL 字段 约束 。 除 此 之 外 ， 
Hive 表 的 结构 与 MySQL 的 average_price_by_state 表 的 初始 定义 一 模 一 样 ， 名 字 也 一 样 。 


如 果 同 一 台 机 器 上 也 运行 着 HBase 并 且 设 置 了 HBASE_HOME 环境 变量 ， 那 么 你 
在 运行 以 上 命令 时 可 能 会 遇 到 以 下 错误 : 


INFO hive.HiveImport: Exception in thread "main" 
java.Lang.NoSuchMethodError : 
org/apache/thrift/EncodingUtils.setBit(BIZ)B 























这 是 HBase 和 Hive 之 间 的 Thr 在 版 本 冲突 导致 的 。 可 以 将 HBASE_HOME 临时 设 
置 为 不 存在 的 路 径 ， 然 后 在 导入 后 重新 加 载 bash 配置 文件 ， 就 能 避免 错误 : 
/srv/sqoop$ export HBASE_HOME=/fake/path 








(Sqoop Hive commands ) 
/srv/sqoops source ~/.profile 
在 本 地 模式 下 ，Hive 将 在 它 运行 的 文件 系统 中 创建 一 个 metastore_db 目录 ; 在 上 一 个 示例 


中 ，metastore_db 是 在 SQOOP_HOME (/srv/sqoop) 下 创建 的 。 打 开 Hive shell 并 验证 表 
average_price_by_state 是 否 已 被 创建 : 











/srv/sqoop$ hive 


hive> DESC average_price_by_state; 


OK 

year int 
state string 
sector string 
residential double 
commercial double 
industrial double 
transportation double 
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other double 
total double 
Time taken: 0.858 seconds, Fetched: 9 row(s) 


你 还 可 以 通过 运行 COUNT 查询 来 验证 是 否 已 导入 了 3272 行 ， 由 于 该 数据 集 相 对 较 小 ， 因 此 
也 可 以 通过 运行 SELECT * FROM average_price_by_state 来 验证 数据 。 将 数据 和 模式 导入 
Hive 之 后 ， 就 可 以 通过 Hive 命令 行 接口 或 其 他 Hive 接口 对 数据 进行 后 续 分 析 了 。 


7.1.3 从 MySQL 导 入 HBase 


HBase 旨 在 为 需要 实时 访问 行 级 数据 的 大 量 并 发 客户 端 处 理 大 量 数据 。 尽 管 在 大 多 数 小 规 
模 和 中 等 规模 的 数据 应 用 程序 中 ， 关 系数 据 库 也 能 很 好 地 满足 这 一 要 求 ， 但 如 果 应 用 程序 
需要 扩展 性 更 强 的 存储 解决 方案 ， 我 们 就 得 考虑 将 一 些 大 规模 和 重负 载 的 数据 组 件 转移 到 
分 布 式 数 据 库 ， 比 如 HBase。 


Sqoop 的 导入 工具 能 将 数据 从 关系 数据 库 导 入 HBase。 与 Hive 一 样 ， 有 两 种 导入 方法 : 一 
种 是 先导 入 HDFS， 然 后 使 用 HBase CLI 或 API 将 数据 加 载 到 HBase 表 中 ， 另 一 种 是 使 用 
- -hbase-table 选项 指示 Sqoop 直接 将 数据 导入 HBase 表 。 
在 这 个 示例 中 ， 要 转移 到 HBase 的 数据 是 一 个 博客 统计 数据 表 ， 其 中 每 条 记录 都 包含 一 个 
主键 (由 竖 线 分 隔 的 卫 地 址 和 年 份 ) 和 每 个 月 对 应 的 列 〈 每 一 列表 示 该 年 该 卫 在 该 月 的 
访问 数 )。 你 可 以 在 本 书 GitHub 仓库 的 /data 目录 中 找到 名 为 weblogs.csv.zip 的 压缩 文件 。 
下 载 并 和 解压， 然后 将 CSV 文件 加 载 到 MySQL 表 中 : 


~$ mysql -yu root -p 









































mysql> CREATE DATABASE logdata; 

mysql> GRANT ALL PRIVILEGES ON logdata.* TO '%'@'localhost'; 
mysql> GRANT ALL PRIVILEGES ON logdata.* TO ''@'localhost'; 
mysql> USE logdata; 


mysql> CREATE TABLE weblogs (ipyear varchar(255) NOT NULL PRIMARY KEY, 
january int(11) DEFAULT NULL, 
february int(11) DEFAULT NULL, 
march int(11) DEFAULT NULL, 
april int(11) DEFAULT NULL, 
may int(11) DEFAULT NULL, 
june int(11) DEFAULT NULL, 
july int(11) DEFAULT NULL, 
august int(11) DEFAULT NULL, 
september int(11) DEFAULT NULL, 
october int(11) DEFAULT NULL， 
november int(11) DEFAULT NULL， 
december int(11) DEFAULT NULL ) ; 


mysqL> quit; 


~$ mysql -yu root -p Logdata --local-infile=1 





mysqL> LOAD DATA LOCAL INFILE '/home/hadoop/hadoop-fundamentaLs/data/webLogs.csv' 


INTO TABLE weblogs FIELDS TERMINATED BY "，" 
LINES TERMINATED BY '\n' IGNORE 1 LINES; 


Query OK, 27300 rows affected (0.20 sec) 
Records: 27300 Deleted: 0 Skipped: 0 Warnings: 0 


mysql> quit; 


与 之 前 一 样 ， 需 要 验证 Hadoop 和 HBase 守护 进程 是 否 正在 运行 : 








~$ cd SHBASE_HOME 
/srv/hbase$ bin/start-hbase.sh 


然后 ， 运行 Sqoop 的 import 命令 ， 将 数据 库 的 JDBC 连接 字符 串 、 表 名 、HBase 表 名 、 
族 名 称 和 行 键 名 称 传递 给 它 : 


sqoop import --connect jdbc:mysqL://LocaLhost:3306/Logdata 
--table weblogs --hbase-table weblogs --column-family traffic 
--hbase-row-key ipyear --hbase-create-table -m 1 


(output truncated) 
15/01/20 00:33:01 INFO mapreduce.ImportJobBase: Transferred 0 bytes in 


19.0716 seconds (0 bytes/sec) 
15/01/20 00:33:01 INFO mapreduce.ImportJobBase: Retrieved 27300 records. 


列 


导入 的 MapReduce 作业 完成 后 ， 你 应 该 会 看 到 控制 台 消 息 INFO mapreduce.ImportJobBase: 
Retrieved 27300 records。 可 以 在 HBase shell 中 使 用 List 和 scan 命令 验证 HBase 表 和 行 
是 否 已 被 成 功 导入 : 





/srv/sqoop$ cd S$HBASE_HOME 
/srv/hbase$ bin/hbase shell 


hbase(main):001:0> list 
TABLE 

linkshare 

weblogs 

2 row(s) in 1.2900 seconds 


=> ["linkshare", "weblogs"] 


hbase(main):002:0> scan 'weblogs', {'LIMIT' => 50} 
(output truncated) 


我 们 已 经 使 用 Sqoop 的 导入 工具 成 功 将 关系 数据 从 MySQL 导入 HDFS、Hive 和 HBase。 
实际 上 ， 这 种 工具 生成 了 一 个 Java 类 ， 它 封装 了 导入 表 的 行 模式 。“ 该 类 在 导入 过 程 中 被 
Sqoop 使 用 ， 但 也 可 用 于 后 续 的 MapReduce 数据 处 理 。 因 此 ， 除 了 自动 交换 Hadoop 和 
关系 数据 库 的 数据 之 外 ，Sqoop 还 有 助 于 快速 开发 与 Hadoop 兼容 的 其 他 数据 源 的 处 理 流 


水 线 。 






































(http://sqoop.apache.org/docs/1.4.6/SqoopUserGuide.html) 。 








注 4: 


参见 Sqoop User Guide 中 的 “Basic Usage” (http://bit.ly/1r25bkq)。 





EY 


若 想 获取 更 多 有 关 Sqoop 特性 和 功能 的 信息 ， 建 议 阅 读 Apache Sqoop User Guide 
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7.2 ”使 用 Flume 获 取 流 式 数据 


Flume 的 设计 初 隧 是 从 多 个 数据 流 中 采集 和 获取 大 量 数据 到 Hadoop。Flume 的 一 个 非常 常 
见 的 用 例 是 采集 日 志 数据 ， 例 如 采集 Web 服务 器 上 由 多 个 应 用 服务 器 发 射 的 日 志 数 据 ， 将 
其 聚合 在 HDFS 中 ， 供 后 续 搜索 或 分 析 使 用 。 但 是 ，Flume 并 不 仅 限 于 简单 地 消费 和 获取 
日 志 数 据 源 ， 它 还 可 以 被 自 定义 为 从 任何 事件 源 传输 大 量 的 事件 数据 。 在 这 两 种 情况 下 ， 
Flume 使 我 们 能 够 在 数据 写 入 Hadoop 后 增 量 且 持 续 地 获取 流 式 数 据 ， 而 不 用 编写 自 定义 
的 客户 端 应 用 程序 将 数据 批量 加 载 到 HDFS、HBase 或 其 他 Hadoop 数据 槽 中 。Flume 提供 
了 一 种 统一 而 灵活 的 方法 ， 将 数据 从 大 量 不 同 且 快 速 流 动 的 数据 流 推送 到 Hadoop。 

Flume 的 灵活 性 源 自 其 固有 的 可 扩展 式 数据 流 架构 。 除 灵活 性 以 外 ，Flume 旨 在 通过 其 分 
布 式 架构 来 保持 容错 性 和 可 扩展 性 。 尽 管 一 般 推荐 使 用 默认 的 “ 端 到 端 ” 可 靠 性 模式 ( 保 
证 所 有 接收 的 事件 最 终 都 能 发 送出 去 ) 设置 *， 但 Flume 还 是 提供 了 多 种 元 余 和 恢复 机 制 。 


我 们 介绍 了 Flume 的 总 体 特征 ， 但 为 了 了 解 如 何 构建 Flume 数据 流 ， 我 们 需要 查看 它 的 基 
本 构建 单元 : Flume 代理 。 


7.2.1 Flume 数 据 流 


Flume 将 从 起 点 到 目的 地 的 数据 采集 路 径 表 示 为 数据 流 。 在 数据 流 中 ， 一 个 数据 单元 (又 
称 事件 ， 例 如 一 条 日 志 ) 从 源流 经 一 系列 跃 点 (hop) 到 达 下 一 个 目的 地 (https:/ftume. 
apache.org/FlumeUserGuide.html#data-flow-model)。 就 连 Flume 数据 流 最 简单 的 实体 
Flume 代理 ， 也 体现 了 数据 流 这 一 概念 。Flume 代理 (实际 上 是 一 个 JVM 进程 ) 是 Flume 
数据 流 中 的 一 个 单元 ， 一旦 外 部 源 发 出 事件 ， 事 件 就 通过 代理 传播 。 代 理由 三 个 可 配置 的 
组 件 构成 : 源 、 通 道 和 数据 槽 ， 如 图 7-1 所 示 。 



























































































































































Flume 代 理 的 设计 








宿主 机 





一 个 JVM (Flume 代 理 












































缓冲 和 存储 事件 























7-1: Flume 代理 的 设计 


Flume 源 用 于 监听 并 消费 来 自 一 个 或 多 个 外 部 数据 源 (不 要 与 Flume 源 混 淆 ) 的 事件 ， 通 

















注 5: 参见 Flume User Guide (https://flume.apache.org/FlumeUserGuide.html#reliability ) 。 
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过 为 每 个 数据 源 设置 名 称 、 类 型 和 额外 的 可 选 参数 进行 配置 。 例 如 ， 通 过 运行 tatL -f / 
etc/httpd/logs/access_log 命令 ， 可 以 将 Flume 代理 的 源 配置 为 接受 来 自 Apache 访问 日 
志 的 事件 。 这 种 类 型 的 源 称 为 exec 源 ， 因 为 它 需 要 Flume 执行 Unix 命令 来 检索 事件 。 
代理 消费 一 个 事件 时 ，Flume 源 将 其 写 和 人 通道。 该 通道 作为 存储 队列 ， 存 储 和 缓冲 事 
件 ， 直 到 它们 可 以 被 读 取 。 事 件 以 事务 性 方式 写 入 通道 ， 这 意味 着 直到 事件 被 消费 并 且 相 
应 的 事务 被 明确 地 关闭 ， 通 道 都 将 把 所 有 事件 保存 在 队列 中 。 因 此 ， 即 便 一 个 代理 停止 ， 
Flume 也 能 够 保持 数据 事件 的 持久 性 。 
Flume 数据 槽 最 终 从 通道 中 读 取 和 移 除 事 件 ， 并 将 其 转发 到 下 一 个 跃 点 或 最 终 目的 地 。 ' 因 
此 ， 可 以 将 数据 槽 配置 为 将 其 输出 作为 流 式 数据 源 写 入 另 一 个 Flume 代理 或 数据 存储 ( 例 
如 HDFS 或 HBase)。Flume 支持 多 种 内 置 数据 槽 ， 在 Apache Flume User Guide (https:// 
flume.apache.org/FlumeUserGuide.html#flume-sinks) 中 均 有 记录 。 
通过 使 用 这 种 源 -通道 - 数据 槽 模式 ， 可 以 轻松 构建 一 个 简单 的 Flume 单 代理 数 据 流 ， 从 
Apache 访问 日 志 中 消费 事件 ， 并 将 日 志 事 件 写 入 HDFS ， 如 图 7-2 所 示 。 
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Flume 人 代理-JVM 进 程 















7-2: 简单 的 Flume 数据 流 


但 是 由 于 Flume 代理 的 适 配 性 很 强 ， 它 甚至 可 以 被 配置 为 多 个 源 、 通 道 和 数据 槽 ， 因 此 ， 
可 以 通过 将 多 个 Flume 代理 链接 在 一 起 来 构建 多 代理 数据 流 ， 如 图 7-3 所 示 。 










































































7-3: Flume 多 代理 数据 流 








注 6: 详 见 《Flume: 构建 高 可 用 、 可 扩展 的 海量 日 志 采 集 系统 》，Hari Shreedharan 著 。 
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尽管 在 解决 流 式 数据 处 理 架 构 时 ，Flume 有 一 些 处 理 常 见 场景 的 数据 流 拓扑 模式 ， 但 是 将 
Flume 代理 组 织 成 复杂 数据 流 的 方式 绝 不 仅 限于 此 。 以 日 志 采 集中 的 一 个 常见 场景 为 例 ， 
生成 日 志 的 大 量 客户 端 将 事件 写 入 多 个 Flume 代理 ， 这 被 称 为 “第 一 层 ” 代 理 ， 因 为 它们 






































消费 外 部 数据 源 层 的 数据 。 如 果 要 将 这 些 事件 写 入 HDFS， 可 以 将 每 个 第 一 层 代理 的 数据 


槽 设置 为 写 入 


HDFS; 但 在 第 一 层 扩展 时 ， 这 可 能 会 引起 一 些 问题 。 由 于 儿 个 不 同 的 代理 


分 别 写 入 HDFS， 因 此 该 数据 流 将 无 法 处 理 周期 性 暴 增 的 存储 系统 数据 写 入 ， 从 而 可 能 引 


发 负载 和 延迟 的 峰值 。 


通过 添加 第 二 
据 槽 (HDFS) 



































层 代 理 ， 可 以 汇总 和 缓冲 来 自 第 一 层 的 事件 ， 从 而 更 好 地 将 第 一 层 代理 与 数 
隔离 。 因 此 ， 第 二 层 代理 一 方面 可 以 聚合 接收 到 的 事件 ， 降 低调 试 难度 ， 












































男 一 方面 ， 它 又 可 以 控制 对 存储 系统 的 写 入 速率 ， 使 得 整个 数据 流 可 以 吸收 更 长 、 更 大 的 
负载 峰值 。 这 种 拓扑 模式 称 为 fan-in 流 ， 如 图 7-4 所 示 。 









































7-4: Flume 的 fan-in 数据 流 


你 可 能 猜 到 了 


， 随 着 产生 数据 的 服务 器 的 增加 ， 第 一 层 代 理 、 后 续 代理 以 及 层 的 数量 通常 


























也 会 相应 地 增加 。 虽 然 调 优 和 设计 这 样 复杂 的 Flume 架构 已 经 超出 本 书 的 范围 ， 但 如 果 你 
有 兴趣 进一步 了 解 Flume 的 设计 原则 ， 推 荐 你 阅读 Hari Shreedharan 的 《Flume: 构建 高 可 
用 、 可 扩展 的 海量 日 志 采 集 系统 》。 在 下 一 小 节 中 ， 我 们 将 配置 一 个 简单 的 Flume 单 代理 


数据 流 来 获取 











自 定义 日 志 。 











注 7: 详 见 《Flume: 构建 高 可 用 、 可 扩展 的 海量 日 志 采 集 系统 》，Hari Shreedharan 著 。 





注 8: 同上 。 
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7.2.2 ”使 用 Flume 获 取 产 品 印象 数据 


能 获取 Apache 访问 日 志 (http://bit.ly/1r278NW) 之 类 的 标准 日 志 数 据 或 Twitter firehose 
(http://bit.ly/1r27c04) 流 式 数据 的 Flume 单 代理 数据 流 比 比 皆 是 ， 但 Flume 其 实 也 非常 适 
用 于 获取 自 定义 数据 流 ， 例 如 自 定义 应 用 程序 生成 的 实时 分 析 数 据 。 

本 小 节 的 例子 将 使 用 Flume 来 消费 某 虚 构 在 线 商 店 生成 的 流 式 用 户 交 互 数据 。 许 多 电子 商 
务 公司 都 在 找寻 测量 其 在 线 商店 微 转化 率 的 方法 ， 追 踪 在 线 营 销 的 效果 。 以 下 指标 可 用 于 
衡量 在 线 商 店 的 整体 效能 。” 




































































点 击 率 
产品 印象 转化 为 点 击 (或 点 击 链 接 /图片 浏览 产品 详情 页 面 的 操作 ) 的 次 数 。 
加 入 购物 车 率 
点 击 转化 为 加 入 购物 车 的 次 数 。 
购物 车 购买 浴 
加 入 购物 车 转化 为 购买 行为 的 次 数 。 
购买 率 


= 品 印 象 最 终 转 化 为 购买 行为 的 百分比 。 
通常 ， 要 获取 这 些 指标 ， 就 需要 捕获 细 粒 度 的 产品 印象 ， 也 就 是 在 电子 商务 Web 应 用 程序 
中 播 柱 ， 记 录 访 问 者 与 产品 的 每 个 交互 。 这 些 交 互 包括 查看 产品 链接 、 点 击 进入 产品 详情 
页 面 、 向 /从 购物 车 添加 / 移 除 产品 以 及 购买 产品 。 在 写 入 数据 后 ， 以 一 定 的 间隔 提取 和 
分 析 数 据 ， 从 而 生成 报表 、 调 整 产 品 特征 、 驱 动 个 性 化 体验 等 。 
我 们 将 模拟 一 个 电子 商务 印象 日 志 ， 以 如 下 JSON 格式 记录 用 户 与 产品 的 交互 信息 : 


{ 
































"sku": "T9921-5", 
"timestamp": 1453167527737， 
"cid": "51761", 
"action": "add_cart", 
ps "226.43;,51.25" 

} 


动作 类 型 包括 view、click、add_cart、remove_cart 和 purchase。 在 本 书 GitHub 仓库 
的 /flume 目录 中 可 以 找到 一 个 生成 样本 印象 日 志 的 脚本 文件 ， 通 过 执行 以 下 操作 来 运 
行 该 文件 : 

$ ./impression tracker.py 
这 将 输出 并 创建 一 个 名 为 impressions.log 的 文件 ， 并 将 其 放 在 /tmp/impressions/ 路 径 
下 。 使 用 拥有 sudo 权限 的 用 户 运行 setup.sh 脚本 ， 在 本 地 文件 系统 和 HDFS 中 创建 必 
需 的 目录 : 


$ ./setup.sh 


























注 9: Ron Kohavi and Foster Provost, “Applications of Data Mining to Electronic Commerce” , Data Mining and 
Knowledge Discovery 5:1-2 (2001): 5—10. 
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本 示例 模拟 了 一 个 简单 的 Flume 双 代 理 数据 流 ， 我 们 在 其 中 建立 了 一 个 客户 端 代理 ， 它 在 
Web 服务 器 上 运行 ， 获 取 impressions.log 中 的 记录 并 将 这 些 事件 发 送 到 一 个 Avro 数据 槽 。 
Avro 是 一 种 轻 量 级 的 RPC 协议 ， 也 提供 了 简单 的 数据 序列 化 功能 。 它 使 我 们 能 轻松 地 设 
置 RPC 协议 ， 将 客户 端 代理 的 数据 槽 中 的 数据 发 送 到 采集 代理 的 源 。 然 后 ， 采 集 代理 将 这 
些 事件 写 入 HDFS。 最 终 的 流程 如 图 7-5 所 示 。 






























































代理 al 代理 a2 





机 器 1 机 器 2 


























7-5: 采集 日 志 到 HDFS 





设置 Flume 代理 从 编写 配置 文件 开始 。 如 前 所 述 ， 所 有 Flume 代理 都 由 源 、 通 道 和 一 个 或 
多 个 数据 槽 组 成 。 首 先 将 客户 端 代理 的 源 配置 为 印象 日 志 的 位 置 : 

# 定义 spooLing 目 录 源 

client.sources=r1 

client.sources.r1.channels=ch1 


client.sources.r1.type=spooldir 
client.sources.r1.spoolDir=/tmp/impressions 


将 源 名 称 设置 为 r1， 稍 后 将 使 用 它 来 引用 和 设置 源 的 其 他 属性 。 然 后 ， 为 源 指定 一 个 已 命 
名 的 通道 ， 本 例 将 其 命名 为 ch1。 另 外 ， 将 ri 的 源 配置 为 spooldir 类 型 ， 用 于 从 磁盘 指定 
的 “ 假 脱 机 ”目录 中 获取 数据 。 这 个 源 将 会 监视 指定 目录 中 的 新 文件 ， 当 新 文件 出 现时 ， 
从 中 解析 出 事件 。 在 给 定 的 文件 被 完全 读 入 通道 之 后 ， 它 会 被 重 命名 ， 表 明 已 被 Flume 
(http://bit.ly/flume-spool) 完全 获取 。 


接着 ， 来 配置 客户 端 代理 的 通道 ， 它 会 缓冲 从 源 到 数据 模 的 数据 。 设 置 一 个 名 为 ch1 的 通 
道 ， 并 将 其 类 型 设置 为 FILE。 点 认 情 况 下 ， 文 件 通 道 通过 将 数据 写 入 用 户主 目录 下 名 为 
checkpoint 和 data 的 目录 下 的 文件 来 缓存 数据 。 可 以 通过 配置 checkpointDir 和 dataDirs 
值 来 覆盖 特定 通道 的 这 些 文件 路 径 : 

# 定义 一 个 文件 通道 

client.channels=ch1 

client.channels.ch1.type=FILE 


最 后 ， 需 要 为 客户 端 代理 配置 数据 槽 。 在 这 个 示例 中 ， 客 户 端 代理 将 其 数据 写 入 Avro 数 
据 槽 。 我 们 将 其 命名 为 kK1， 并 将 其 配置 为 从 chi 通道 获取 数据 。Avro 数据 槽 需要 一 个 主 
机 名 和 端口 : 


























































































































# 定义 一 个 Avro 数据 





client.sinks=k1 
client.sinks.k1.type=avro 
client.sinks.k1.hostname=localhost 
client.sinks.k1.port=4141 
client.sinks.k1.channel=ch1 


a 配置 采集 代理 





模 

















里 ， 它 从 之 前 配置 的 Avro 源 消 费事 件 ， 并 将 这 些 事 件 写 入 HDFS。 








源 、 通 道 和 数据 槽 的 配置 如 下 所 示 ; 


# 定 义 一 个 Avro 源 


COLLector . 
COLLector . 
COLLector . 
COLLector . 
COLLector . 


Sources= 
Sources. 
Sources. 
sources 
Sources., 


Ff 
r1.type=avro 
ri.bind=0.0.0.0 


.T1.port=4141 


ri.channels=ch1 


# 定 义 一 个 文件 通道 ,为 了 可 靠 性 ,使 用 多 个 磁盘 


collector. 
collector. 
collector. 
collector. 


# 定 义 HDFS 数 据 覃 ,将 寻 
COLLector . 
COLLector . 
COLLector . 


请 注意 ， 只 要 类 型 、 


channels= 


channels 


channels. 
channels. 





ch1 

.Ch1.type=FILE 
ch1i.checkpointDir=/tmp/flume/checkpoint 
ch1.dataDirs=/tmp/fLume/data 























sinks=k1 


sinks.k1. 
sinks.k1. 


绑 定 主机 和 端口 的 配置 一 致 ， 源 名 称 不 需要 与 客户 端 代理 的 数据 模 名 








件 持久 化 为 文本 


type=hdfs 
channel=ch1 






































称 相 匹配 。 我 们 也 为 此 代理 配置 了 = 前 道 ， 但 是 覆盖 了 检查 点 和 数据 目录 ， 避 免 与 
客户 端 代 里 的 通道 发 生 溃 突 ， 此 外 ， 还 声明 了 一 个 名 为 ki1、 类 型 为 hdfs 的 数据 槽 ， 它 从 
为 此 代理 配置 的 ch1 通 


HDFS 数据 槽 需要 一 个 path 配置 ， 用 于 指定 代理 写 入 数据 的 HDFS 人 位置。 此外， 我 们 还 指 
定 了 其 他 一 些 可 选 配置 参数 ， 比 如 预期 文件 名 的 前 级 和 后 级 、 文 件 格式 ， 以 及 每 一 批 次 写 
入 的 最 大 事件 数 : 


# HDFS 数 据 模 配 置 






































COLLector . 
COLLector . 
COLLector . 
COLLector . 
COLLector . 
COLLector . 




















sinks.k1 
sinks.k1 
sinks.k1 








道 消 费事 件 。 





.hdfs.path=/user/hadoop/impressions 
.hdfs.fileprefix=impressions 
.hdfs.fileSuffix=. log 

sinks.k1. 
sinks.k1. 
sinks.k1. 


hdfs.fileType=DataStream 
hdfs .writeFormat=Text 
hdfs.batchSize=1000 


客户 端 和 采集 代理 都 已 完全 配置 好 ， 可 以 运行 Flume 代理 来 执行 完整 的 数据 流 了 。 | 
确保 你 已 运行 setup.sh 脚本 ， 并 在 /tmp/impressions 下 生成 了 impressions.log 文件 。 然 























等 待 从 客户 端 代理 接收 





在 终端 打开 三 个 选项 卡 。 在 第 一 个 选项 卡 中 ， 导 航 到 Flume 0 


$ flume-ng agent 
采集 代理 启动 ， 


$ flume-ng agent 


-Nn collector --conf . -f collector.conf 




















件 。 现在， 在 第 二 个 选项 卡 中 启动 客户 端 代 理 ; 


ul 








T 


-Nn client --conf . -f client.conf 
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一 旦 客户 端 代理 完全 处 理 了 impressions.log 文件 ， 你 就 会 看 到 一 条 控制 台 消 息 ， 表 明 
impressions.log 文件 已 被 完全 处 理 并 重 命名 为 impressions.log.COMPLETED: 








INFO avro.ReliableSpoolingFileEventReader: Preparing to move file 
/tmp/impressions/impressions.log to 
/tmp/impressions/impressions.1log.COMPLETED 
然后 检查 第 一 个 选项 卡 ， 验 证 采集 代理 是 否 已 处 理 所 有 事件 并 将 其 写 和 人 了 HDFS。 确认 日 
志 已 写 人 配置 指定 的 HDFS 源 目 录 : 


$ hadoop fs -ls /user/hadoop/impressions/ 
$ hadoop fs -cat /user/hadoop/impressions/impressions.1453085307781.Log | head 


文件 前 缀 为 impressions， 后 绥 为 .log 扩展 名 ,但 中 间 的 时 间 惟 会 随 你 运行 Flume 数据 
流 的 日 期 和 时 间 而 变 。 虽 然 这 个 双 代理 数据 流 演示 的 Flume 多 代理 数据 流 非常 简单 ， 但 
是 Flume 为 许多 其 他 类 型 和 配置 的 状 、 通 道 和 数据 槽 提供 了 丰富 的 支持 ， 以 实现 更 复杂 
和 可 扩展 的 数据 流 。 关 于 这 一 点 ， 可 以 查阅 Flume 的 用 户 文档 (https://lume.apache.org/ 
FlumeUserGuide.html ) 。 


7153 外 结 


在 本 章 中 ， 我 们 学 习 了 如 何 使 用 Sqoop 将 批量 数据 从 关系 数据 库 高 效 地 传输 到 各 种 
Hadoop 数据 存储 中 。 有 关 集 成 Sqoop 的 更 多 信息 ， 推 荐 你 阅读 Kathleen Ting 和 Jarek 
Jarcec Cecho 合 著 的 Apache Sgoop Cookbook (http://shop.oreilly.com/product/0636920029519.do)。 
我 们 还 了 解 了 Flume 如 何以 可 靠 、 可 扩展 的 方式 将 流 式 数 据 传输 到 Hadoop。 如 果 你 想 了 
解 更 多 关于 Flume 流 的 配置 和 架构 的 信息 ， 推 荐 你 阅读 Hari Shreedharan 的 《Flume: 构建 
高 可 用 、 可 扩展 的 海量 日 志 采 集 系统 》。 


虽然 Sqoop 和 Flume 位 列 Hadoop 最 常用 的 数据 采集 工具 之 中 ,但 是 在 数据 采集 和 流 处 
里 领域 还 有 许多 本 章 未 涉及 的 Hadoop 生态 系统 项 目 。Apache Kafka 就 是 其 中 之 一 ， 它 虽 
然 不 是 专门 为 Hadoop 设计 的 ， 但 却 支 持 将 数据 高 吞吐 、 并 行 地 加 载 到 Hadoop 中 。 除 了 
Flume 和 Kafka 之 外 ， 开 发 采集 和 处 理 Hadoop 和 Spark 中 实时 流 式 数 据 的 工具 和 模式 也 是 
目前 的 研究 重点 。 如 果 想 进一步 了 解 使 用 这 些 工具 进行 数据 采集 的 实际 用 例 ， 推 荐 你 阅读 
《Hadoop 应 用 架构 》" 中 的 “Hadoop 数据 移动 ”一 章 。 
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注 10: 本 书 已 由 人 民 邮 电 出 版 社 出 版 ，http:/www.ituring.com.cn/book/1710。 一 一 编者 六 
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第 8 和 章 


使 用 高 级 API 进 行 分 析 





第 6 章 解 释 了 为 什么 要 放弃 原生 MapReduce， 转 而 使 用 Hive 这 样 的 较 高 级 语言 的 部 分 原 
因 一 一 因为 前 者 实现 起 相对 简单 的 操作 也 可 能 十 分 困难 、 笨 拙 和 和 宛 长 。 即 便 是 经 验 丰富 
的 Java 和 MapReduce 程序 员 也 会 发 现 ， 大 多 数 严 谨 的 Hadoop 应 用 程序 的 开发 周期 都 很 
长 ， 需 要 编写 多 个 mapper 和 reducer 并 将 它们 链接 起 来 ， 形 成 复杂 的 作业 链 或 数据 处 理 
工作 流 。 


此 外 ， 由 于 MapReduce 旨 在 以 批 处 理 方式 运行 ， 因 此 它 在 运行 需要 响应 反馈 的 迭代 处 
理 (包括 许多 机 器 学 习 算 法 ) 和 交互 式 数据 挖掘 的 数据 分 析 时 ， 会 有 许多 限制 。 原 生 
MapReduce 在 开发 效率 、 维 护 和 运行 时 表现 出 的 性 能 方面 的 不 足 引 发 了 对 Hadoop 更 高 层 
次 的 抽象 ， 甚 至 是 扩展 MapReduce 范式 的 新 处 理 引擎 的 需求 。 


本 章 将 介绍 Pig， 它 是 MapReduce 的 一 种 编程 抽象 ， 有 助 于 构建 基于 MapReduce 的 数据 
流 ;， 此外， 还 将 介绍 一 些 扩展 核心 RDD API 的 新 Spark API， 让 开发 人 员 能 使 用 他 们 熟悉 
的 基于 SQL 的 概念 和 语法 ， 降 低 计算 结构 化 数据 的 难度 。 这 些 项 目 将 提供 表达 力 强大 的 
API， 使 分 析 人 员 仅 赁 几 行 代码 就 能 构建 复杂 的 应 用 程序 ， 从 而 提高 MapReduce 和 Spark 
应 用 程序 的 开发 效率 。 


8.1 Pig 


和 Hive 一 样 ，Pig 也 是 一 种 MapReduce 抽象 。 它 允许 用 户 用 更 高 级 的 语言 去 表达 数据 处 理 
和 分 析 操 作 ， 然 后 这 些 操作 被 编译 成 一 个 MapReduce 作业 。Pig 是 雅虎 开发 的 一 个 工具 ， 
通过 将 脚本 表示 为 数据 流 ， 使 研究 人 员 和 工程 师 能 更 轻松 地 编写 数据 挖掘 Hadoop 脚本 。 
Pig (http:/pig.apache.org) 现在 是 一 个 Apache 顶级 项 目 ， 包 含 两 个 主要 平台 组 件 。 















































注 1: 《Hadoop 权威 指南 (第 4 版 )》 Tom White 著 (O'Reilly)。 
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。 Pig Latin， 用 于 表达 数据 流 的 过 程式 脚本 语言 。 
。 运行 Pig Latin 程序 的 Pig 执行 环境 ， 可 以 在 本 地 或 MapReduce 模式 下 运行 ， 包 含 Grunt 
命令 行 接口 。 

Hive 的 HQL 充分 继承 了 SQL 的 声明 式 风格 ， 但 Pig Latin 不 同 ， 它 本 质 上 是 过 程式 的 ， 号 
在 让 程序 员 能 轻松 实现 一 系列 应 用 于 数据 集 的 数据 操作 和 转换 ， 从 而 形成 数据 流水 线 。” 
虽然 Hive 非常 适用 于 能 很 好 转换 为 基于 SQL 的 脚本 的 用 例 ， 但 要 转换 多 重复 杂 数 据 时 ， 
SQL 就 显得 力不从心 了 。Pig Latin 是 实现 这 类 多 级 数据 流 的 理想 选择 ， 特 别 是 需要 从 多 个 
源 聚 合 数据 ， 并 在 数据 处 理 流程 的 每 个 阶段 执行 后 续 转 换 的 情况 下 。 


Pig Latin 脚本 从 数据 开始 ， 对 数据 应 用 转换 ， 最 后 描述 所 需 结果 ， 并 将 整个 数据 处 理 流 程 
作为 已 优化 的 MapReduce 作业 执行 。 此 外 ，Pig 支持 使 用 由 Java、Python、JavaScript 及 其 
他 支持 的 语言 编写 的 用 户 定义 函数 (UDF) 集成 自 定义 代码 。” 因此 ， 我 们 可 以 使 用 相对 
简单 的 构造 对 大 数据 进行 几乎 所 有 的 转换 和 临时 分 析 。 

一 定 要 记 住 ，Pig 和 Hive 一 样 ， 最 终 将 编译 成 MapReduce 作业 ， 无 法 突破 Hadoop 批 处 理 
方法 的 局 限 性 。 不 过 Pig 也 确实 为 我 们 提供 了 强大 的 工具 ， 可 以 轻松 、 简 便 地 编写 复杂 的 
数据 处 理 流程 ， 以 及 在 Hadoop 上 构建 真实 业务 应 用 程序 所 需 的 细 粒 度 控 制 。 下 一 节 将 先 
回顾 一 些 Pig 的 基本 组 件 ， 然 后 通过 实现 原生 的 Pig Latin 运算 符 和 定制 函数 ， 对 Twitter 
数据 执行 一 些 简单 的 情绪 分 析 。 假 设 你 已 经 在 伪 分 布 式 模式 的 Hadoop 上 安装 了 Pig。 安 装 
Pig 的 步骤 可 以 在 附录 B 中 找到 。 






































8.1.1 Pig Latin 


既然 已 经 设置 好 了 Pig 和 Grunt shell， 那 就 先 来 研究 一 个 Pig 脚本 ， 探 讨 探讨 Pig Latin 提 
供 的 命令 和 表达 式 。 以 下 脚本 将 加 载 一 个 星期 内 带 有 标签 #unitedairlines 的 Twitter 推 文 。 





你 可 以 在 GitHub 仓库 的 data/sentiment_analysis/ 文件 夹 下 找到 该 脚本 和 相应 
的 数据 。 





























数据 文件 united_airlines_tweets.tsv 提供 了 tweet ID、 固 定 链 接 、 发 布 日 期 、 推 文 和 Twitter 
用 户 名 。 该 脚本 加 载 字典 文件 dictionary.tsv， 该 文件 包含 已 知 的 “正面 的 ”(positive) 和 
“负面 的 ”(negative) 词 ， 以 及 与 每 个 词 相 关联 的 情绪 评分 (分别 为 1 和 -1)。 然 后 ， 该 脚 
本 执行 一 系列 Pig 变换 ， 生 成 每 个 推 文 的 情绪 评分 和 分 类 (POSITIVE 或 NEGATIVE) : 
grunt> tweets = LOAD 'united_airlines_ tweets.tsv' USING PigStorage('\t') 
AS (id_str:chararray, tweet_url:chararray, created_at:chararray, 
text:chararray, lang:chararray, retweet count:int, favorite count:int, 


screen_name:chararray); 
grunt> dictionary = LOAD 'dictionary.tsv' USING PigStorage('\t') 























注 2: Alan Gates, “Comparing Pig Latin and SQL for Constructing Data Processing Pipelines” (http://yhoo.it/1r2bK6D), 
Yahoo Developer Network’s Hadoop Blog, January 29, 2010. 
注 3: 参见 Apache Pig 的 文档 (http://pig.apache.org/docs/r0.12.0/start.html) 。 








AS (word:chararray, score:int); 
grunt> english tweets = FILTER tweets BY Lang == 'en'; 
grunt> tokenized = FOREACH english tweets GENERATE id_str, 
FLATTEN( TOKENIZE(text) ) AS word; 
grunt> clean_tokens = FOREACH tokenized GENERATE id_str, 
LOWER(REGEX_EXTRACT(word, '[#@]{0,1}(.*)', 1)) AS word; 
grunt> token_sentiment = JOIN clean_tokens BY word, dictionary BY word; 
grunt> sentiment_group = GROUP token_ sentiment BY id_str; 
grunt> sentiment_score FOREACH sentiment_group 
GENERATE group AS id, SUM(token_sentiment.score) AS final; 
grunt> classified = FOREACH sentiment_score 
GENERATE id, ( (final >= 0)? 'POSITIVE' : 'NEGATIVE' ) AS classification, 
final AS score; 
grunt> final = ORDER classified BY score DESC; 
grunt> STORE final INTO 'sentiment _ analysis'; 


让 我 们 将 脚本 分 解 成 数据 处 理 流程 的 单个 步骤 。 
1. 关系 和 元 组 
脚本 的 前 两 行将 数据 从 文件 系统 加 载 到 关系 tweets 和 dictionary 中 : 


tweets = LOAD 'united_ airlines_ tweets.tsv' USING PigStorage('\t') 
AS (id_str:chararray, tweet_url:chararray, created_at:chararray, 
text:chararray, lang:chararray, retweet count:int, favorite count:int, 
screen_name:chararray); 








dictionary = LOAD 'dictionary.tsv' USING PigStorage('\t') AS (word:chararray, 
score:int); 


Pig 中 的 关系 在 概念 上 类 似 于 关系 数据 库 中 的 表 ， 但 它 不 是 有 序 集合 或 行 ， 而 是 一 系列 无 
序 的 元 组 。 元 组 是 一 个 有 序 的 字段 集合 。 一 定 要 注意 ， 虽然 关系 声明 在 赋值 的 左 人 出， 与 典 
型 编程 语言 中 的 变量 很 像 ， 但 关系 不 是 变量 。 给 关系 别名 是 为 了 引用 ， 但 它们 其 实 代表 的 
是 数据 处 理 流程 中 的 检查 点 数据 集 。 


首先 ， 使 用 LOAD 运算 符 指 定 文件 的 文件 名 (在 本 地 文件 系统 或 HDFS 上 )， 将 它 加 载 到 
tweets 和 dictionary 关系 中 ; 然后 ， 使 用 USING 子 句 与 Pigstorage 加 载 函 数 指定 文件 由 
制 表 符 分 隔 ， 最 后 ， 使 用 As 子 句 定义 每 个 关系 的 模式 ， 并 为 每 个 字段 指定 列 别名 和 相应 
的 数据 类 型 ， 但 这 步 不 是 必需 的 。 即 使 没有 定义 模式 ， 仍然 可 以 通过 使 用 Pig 的 位 置 列 
(第 一 个 字段 为 66， 第 二 个 字段 为 $1， 依 此 类 推 ) 引用 关系 中 每 个 元 组 的 字段 。 如 果 加 载 
的 数据 有 许多 列 ， 但 你 仅 想 引用 其 中 几 列 时 ， 不 定义 模式 可 能 效果 更 好 。 





















































2. 过 滤 
下 一 行 对 tweets 关系 执行 了 简单 的 FILTER 数据 转换 ， 以 过 滤 掉 所 有 不 是 英文 的 元 组 : 
english tweets = FILTER tweets BY lang == 'en'; 


FILTER 运算 符 根 据 某 种 条 件 从 关系 中 选择 元 组 ， 通 常用 它 来 选择 所 需 的 数据 ， 或 者 过 滤 掉 
(删除 ) 不 想 要 的 数据 。 因 为 “lang” 字 段 类 型 为 chararray， 而 chararray 等 价 于 Java 中 
的 String 数据 类 型 ， 所 以 使 用 == 比较 运算 符 来 筛选 出 值 为 en (English) 的 记录 。 结 果 存 
储 在 一 个 名 为 english_tweets 的 新 关系 中 。 
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3. 投影 





























过 滤 数 据 而 只 保留 英文 推 文 ( 毕 竞 我 们 的 字典 是 英文 的 ) 之 后 ， 我 们 需要 将 推 文 分 成 单词 
令 牌 ， 这样 就 可 以 将 单词 令 牌 与 字典 进行 匹配 ， 并 可 对 单词 进行 一 些 额外 的 数据 清理 ， 删 
除 # 和 @: 


tokenized = FOREACH english_tweets GENERATE id_str, 
FLATTEN( TOKENIZE(text) ) AS word; 

clean_tokens = FOREACH tokenized GENERATE id_str, 
LOWER(REGEX_EXTRACT(word, '[#@]{0,1}(.*)', 1)) AS word; 


Pig 提供 了 FOREACH ... GENERATE 操作 来 处 理 关系 或 集合 中 的 数据 列 ， 并 将 一 组 表达 式 应 
用 于 集合 中 的 每 个 元 组 。GENERATE 子 句 包含 值 和 /或 评估 表达 式 ， 评 估 表 达 式 将 导出 一 个 
新 的 元 组 集合 并 将 其 传递 到 流水 线 的 下 一 步 。 在 此 示例 中 ， 我 们 从 english_tweets 关系 
中 投影 id_str 键 ， 并 使 用 TOKENIZE 函数 将 text 字段 分 割 成 单词 令 牌 〈 使 用 空格 分 割 ) 。 
FLATTEN 函数 将 生成 的 元 组 集合 中 的 每 个 单词 提取 出 来 ，id_str 与 其 中 每 一 个 单词 构成 一 
个 元 组 。 


我 们 生成 的 元 组 集合 实际 上 是 Pig 中 的 一 种 特殊 数据 类 型 ， 被 称 为 bag。 它 代表 一 个 无 
序 的 元 组 集合 ， 类 似 于 关系 。 但 关系 被 称 为 “outer bag”， 因 为 关系 不 能 和 众人 套 在 另 一 个 
bag 中 。 在 FOREACH 命令 中 ， 结 果 产 生 一 个 叫 作 tokenized 的 新 关系 ， 它 的 第 一 个 字段 是 
stock_tweet ID (id_str)， 第 二 个 字段 是 由 单个 单词 元 组 组 成 的 bag。 


然后 ， 对 tokenized 关系 再 进行 投影 ， 取 得 id_str 和 删除 了 开头 的 # 和 @ 的 小 写 的 word。 
我 们 对 数据 进行 了 很 多 转换 ， 所 以 现在 正 是 验证 关系 结构 是 否 良 好 的 好 时 机 。 你 可 以 随时 
使 用 ILLUSTRATE 运算 符 来 查看 基于 简明 样本 数据 集 生成 的 每 个 关系 的 模式 (为 减少 输出 而 
截断 了 输出 ) : 


grunt> ILLUSTRATE clean_tokens; 



























































在 设计 Pig 流 时 ， 定 期 使 用 ILLUSTRATE 命令 有 助 于 了 解 查询 的 状态 ， 并 验证 流水 线 中 的 每 
个 检查 点 。 

4. 分 组 和 连接 

我 们 已 经 对 所 选 的 推 文 进行 了 分 词 ， 也 清洗 了 单词 令 牌 ， 现 在 希望 JOIN 得 到 的 令 牌 和 字 
典 ， 根据 单词 令 牌 进行 匹配 : 


token_sentiment = JOIN clean_tokens BY word, dictionary BY word; 


Pig 提供 JOIN 命令 ， 基 于 公共 字段 值 对 两 个 或 多 个 关系 执行 连接 。 虽 然 默认 情况 下 使 用 
内 连接 ， 但 是 内 连接 和 外 连接 都 是 被 支持 的 。 示 例 基于 word 字段 对 clean_tokens 关系 和 
dictionary 关系 执行 内 连接 ， 这 将 生成 一 个 名 为 token_sentiment 的 新 关系 ， 它 包含 两 个 
关系 的 字段 : 












































| token_sentiment | clean_ tokens::id_ str:chararray | 
clean_tokens: :word:chararray | 
dictionary::word:chararray | dictionary::score:int | 


现在 ,通过 Tweet ID ( 即 id_str) GROUP 这 些 行 ， 这 样 稍 后 才能 计算 每 条 推 文 的 总 分 : 
sentiment_group = GROUP token_sentiment BY id_str; 

GROUP 运算 符 将 组 键 (id_str) 相同 的 元 组 分 到 一 起 。 这 个 操作 会 产生 一 个 关系 ， 每 个 组 

包含 一 个 元 组 ， 每 个 元 组 包含 两 个 字段 。 

。 第 一 个 字段 名 为 “group”( 不 要 将 它 与 GROUP 运算 符 弄 混 了 )， 与 组 键 的 类 型 相同 。 

。 第 二 个 字段 采用 原先 关系 的 名 称 (token_sentiment)， 类 型 为 bag。 

现在 可 以 进行 数据 的 最 终 聚 合 ， 计 算 按 ID 分 组 的 每 条 推 文 的 总 分 了 : 


sentiment_score = FOREACH sentiment_group GENERATE group AS id, 
SUM(token_sentiment.score) AS final; 


然后 根据 分 数 ， 将 每 条 推 文 分 类 为 “正面 ”或 “负面 ”: 
classified = FOREACH sentiment_score GENERATE id, 
( (final >= 0)? 'POSITIVE' : 'NEGATIVE' ) 
AS classification, final AS score; 


最 后 ， 将 结果 按 分 数 降 序 排列 : 


final = ORDER classified BY score DESC; 


至 此 ， 我 们 定义 了 情绪 分 析 所 需 的 所 有 操作 和 预测 。 下 一 市 将 把 这 些 数 据 保存 在 HDFS 上 
的 一 个 文件 中 ， 可 供 之 后 查看 、 分 析 结 果 使 用 。 

5. 存 储 和 输出 数据 

我 们 已 经 对 数据 应 用 了 所 有 必要 的 转换 ， 现 在 想 在 某 处 写 出 结果 。 为 了 实现 这 一 操作 ，Pig 
提供 了 STORE 语句 。 它 能 获取 某 个 关系 ， 并 将 结果 写 和 指定 位 置 。 默 认 情 况 下 ，STORE 命令 
将 使 用 Pigstorage 将 数据 写 人 HDFS 上 制 表 符 分 隔 的 文件 中 。 在 此 示例 中 ， 我 们 将 final 
关系 的 结果 转 储 到 Hadoop 用 户 目录 (/user/hadoop/) 中 名 为 sentiment_analysis 的 文件 夹 中 : 


STORE final INTO 'sentiment_analysis'; 


该 目录 将 包括 一 个 或 多 个 part 文件 : 


$ hadoop fs -ls sentiment_anaLysis 
Found 2 items 




















下 





-rw-r--r-- 1 hadoop supergroup 0 2015-02-19 00:10 
sentiment_analysis/_SUCCESS 
-rw-r--r-- 1 hadoop supergroup 7492 2015-02-19 00:10 


sentiment_analysis/part-r-00000 


在 本 地 模式 下 ， 只 能 创建 一 个 part 文件 ; 


TT 


但 是 在 MapReduce 模式 下 ，part 文件 的 数量 将 取 
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决 于 存储 前 最 后 一 个 作业 的 并 行 性 。Pig 提供 了 几 个 功能 ， 能 设置 生成 的 MapReduce 作业 
的 reducer 数量 ， 你 可 以 在 Apache Pig 文档 (http://pig.apache.org/) 中 阅读 更 多 有 关 Pig 并 
行 功能 的 内 容 。 
当 使 用 较 小 的 数据 集 时 ， 使 用 grunt shell 将 结果 快速 输出 到 屏幕 ， 比 将 结果 存储 起 来 更 方 
便 。DUMP 命令 使 用 关系 的 名 称 将 其 内 容 打 印 到 控制 台 : 

grunt> DUMP sentiment_analysis; 
DUMP 命令 适用 于 快速 测试 和 验证 Pig 脚本 的 输出 。 但 面 对 大 型 数据 集 的 输出 时 ， 你 通常 会 
将 结果 存储 到 文件 系统 供 后 续 分 析 使 用 。 


8.1.2 ”数据 类 型 

我 们 已 经 介绍 了 一 些 Pig 中 的 可 用 租 套 数据 结构 ， 比 如 字段 、 元 组 和 bag。Pig 还 提供 了 
map 结构 ， 其 中 包含 键 值 对 集合 。 键 始终 是 chararray 类 型 ， 但 是 值 的 数据 类 型 不 定 。 在 
定义 推 文 数据 的 模式 时 ， 我 们 看 到 了 Pig 支持 的 一 些 原生 标量 类 型 。 


表 8-1 展示 了 所 有 Pig 支持 的 标量 类 型 。 
表 8-1: Pig 标 量 类 型 
















































































类 别 类 型 描述 示例 
Numeric int 32 位 带 符号 整数 12 
long 64 位 带 符号 整数 34L 
float 32 位 浮 点 数 2.18F 
double 64 位 浮 点 数 3e-17 
Text chararray string 或 字符 数组 hello world 
Binary bytearray blob 或 字 节 数组 N/A 


8.1.3 关系 运算 符 


Pig 通过 Pig Latin 中 的 关系 运算 符 提 供 数据 操作 命令 。 在 之 前 的 示例 中 ， 我 们 使 用 过 其 中 
几 个 来 加 载 、 过 滤 、 分 组 、 投 影 和 存储 数据 。 表 8-2 展示 了 Pig 支持 的 关系 运算 符 。 


表 8-2: Pig 关 系 运算 符 






























































分 类 运算 符 描述 

加 载 和 存储 LOAD 从 文件 系统 或 其 他 存储 源 加 载 数据 
STORE 将 关系 存 和 文件 系统 或 其 他 存储 系统 
DUMP 将 关系 打印 到 控制 台 

过 滤 和 投影 FILTER 基于 某 种 条 件 从 关系 中 选择 元 组 
DISTINCT 移 除 关 系 中 重复 的 元 组 
FOREACH, . .GENERATE 基于 数据 列 生 成 数据 转换 
MAPREDUCE 在 Pig 脚本 内 执行 本 地 MapReduce 作业 
STREAM 将 数据 发 送 给 外 部 脚本 或 程序 
SAMPLE 选择 一 个 指定 大 小 的 随机 样本 数据 
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入 





























分 类 运算 符 描述 

分 组 和 连接 JOIN 连接 两 个 或 多 个 关系 
COGROUP 将 两 个 或 多 个 关系 的 数据 进行 分 组 
GROUP 将 一 个 关系 的 数据 进行 分 组 
CROSS 创建 两 个 或 多 个 关系 的 向 量 积 

排序 ORDER 根据 一 个 或 多 个 字段 对 关系 进行 排序 
LIMIT 限制 关系 返回 的 元 组 数量 

合并 与 分 割 UNION 合并 两 个 或 多 个 关系 
SPLIT 把 一 个 关系 切 分 成 两 个 或 多 个 关系 


泪 


在 Pig 的 用 户 文 档 (http://pig.apache.org/docs/r0.14.0/) 中 可 以 找到 Pig 的 关系 运算 符 、 
术 、 布 尔 和 比较 运算 符 的 完整 使 用 语法 。 


8.1.4 用 户 定义 函数 

Pig 最 强大 的 功能 之 一 在 于 ， 它 能 够 让 用 户 将 Pig 的 原生 关系 运算 符 与 自己 的 自 定 义 处 理 相 
结合 。Pig 为 用 户 定义 函数 (user-defined function, UDF,， http://pig.apache.org/docs/r0.14.0/ 
udf.html) 提供 了 广泛 的 支持 ， 目 前 为 6 种 语言 提供 了 集成 库 ， 分 别 是 Java、Jython、 
Python、JavaScript、Ruby 和 Groovy。 然 而 ，Java 仍然 是 最 广泛 支持 的 编写 Pig UDF 的 语 
言 ， 并 且 通 常 更 高 效 因为 它 与 Pig 是 相同 的 语言 ， 可 以 与 Pig 接口 (例如 Algebraic 
接口 和 Accumulator 接口 ) 集成 。 

来 演示 一 个 之 前 写 过 的 脚本 的 简单 UDF。 在 这 种 场景 下 ， 我 们 想 编写 一 个 自 定义 的 评估 
UDF， 将 分 数 分 类 评估 转换 为 一 个 函数 。 这 样 的 话 ， 就 不 需要 写 : 

classified = FOREACH sentiment_score GENERATE id, 


( (final >= 0)? 'POSITIVE' : 'NEGATIVE' ) 
AS classification, final AS score; 


















































而 是 写 : 


classified = FOREACH sentiment_score GENERATE id, 
classify(final) AS classification, final AS score; 


在 Java 中 ， 我 们 需要 扩展 Pig 的 EvalFunc 类 并 实现 exec() 方法 。 该 方法 需要 一 个 元 组 ， 
并 返回 一 个 String : 


package com.statistics.pig; 











import java.io.IOException; 

import org.apache.pig.EvalFunc; 

import org.apache.pig.backend.executionengine.ExecException; 
import org.apache.pig.data.Tuple; 


public class Classify extends EvaLFunc { 


@ Override 
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public String exec(Tuple args)throws IOException { 

if (args == null || args.size() == 0) { 

return false; 
} 
try { 

Object object = args.get(0); 

if (object == nuLL) { 

return false; 


} 
int i = (Integer)object; 
if (i >= 0) { 
return new String("POSITIVE"); 
} else { 
return new String("NEGATIVE"); 


} catch (ExecException e) { 
throw new IOException(e); 


} 
} 
要 使 用 此 函数 ， 就 需要 先 编译 它 ， 将 它 打 包 成 JAR 文件 ， 然 后 使 用 REGISTER 运算 符 将 它 
注册 到 Pig: 
grunt> REGISTER statistics-pig.jar; 
然后 通过 命令 调用 该 函数 : 


grunt> classified = FOREACH sentiment_score GENERATE id, 
com.statistics.pig.Classify(final) AS classification, final AS score; 


建议 你 阅读 UDF 的 相关 文档 ， 其 中 包含 支持 的 UDF 接口 列表 ， 并 提供 用 于 评 佑 、 加 
载 、 存 储 、 汇 总 /过 滤 数 据 任务 的 示例 脚本 。Pig 还 提供 了 一 组 由 用 户 贡 献 的 UDF， 叫 作 
Piggybank。 它 们 与 Pig 一 起 发 布 ， 但 必须 注册 才能 使 用 。 有 关 Piggybank 的 详细 信息 ， 请 
参见 Apache 文档 (https://cwiki.apache.org/confluence/display/PIG/PiggyBank) 。 



































8.1.5 ”Pig 小结 


对 偏爱 过 程式 编程 模型 的 用 户 来 说 ，Pig 是 一 个 强大 的 工具 。 它 能 控制 流水 线 中 的 数据 检 
查 点 ， 更 提供 了 对 每 个 步骤 如 何 处 理 数 据 的 细 粒 度 控 制 。 当 你 需要 更 灵活 地 控制 数据 流 中 
的 操作 顺序 (例如 提取 、 转 换 、 加 载 或 ETL 过 程 )， 或 者 面 对 不 适合 使 用 Hive 的 SQL 语 
法 的 半 结 构 化 数据 时 ，Pig 都 是 一 个 很 好 的 选择 。 


8.2 ”Spark 高 级 API 


现在 的 许多 项 目 和 工具 都 围绕 着 MapReduce 和 Hadoop 构建 ， 以 支持 常见 的 数据 任务 并 提 
供 更 高 效 的 开发 人 员 体验 。 例 如 我 们 已 经 见 过 的 ， 使 用 Hadoop Streaming 这 样 的 框架 以 非 
Java 语言 (如 Python) 编写 和 提交 MapReduce 作业 。 我 们 还 介绍 了 为 MapReduce 提供 更 
高 级 别 抽象 的 工具 一 一 Hive 和 Pig。Hive 提供 了 关系 型 接口 和 声明 式 的 基于 SQL 的 语言 
查询 结构 化 数据 ， 而 Pig 提供 了 一 个 在 Hadoop 中 编写 面向 数据 流程 序 的 过 程式 接口 。 
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但 在 实际 工作 中 ，— 典 型 的 分 析 工 作 流 将 结合 关系 查询 、 过 程式 编程 和 自 定义 处 理 三 者 。 这 
意味 着 大 多 数 端 到 端 Hadoop 工作 流 都 要 集成 多 个 不 同 组 件 ， 并 在 不 同 编程 API 之 间 切 换 。 
与 以 MapReduce 为 中 心 的 Hadoop 栈 相 比 ，Spark 在 编程 上 有 两 大 优势 。 


。 内 置 表达 力 强 大 的 API， 以 标准 的 通用 语言 〈 例 如 Scala、Java、Python 和 R) 提供 。 
。 包含 若干 内 置 高 级 库 的 统一 编程 接口 ， 支 持 广泛 的 数据 处 理 任务 ， 比 如 复杂 的 交互 式 分 
析 、 结 构 化 查询 、 流 处 理 和 机 器 学 习 。 


第 4 章 使 用 Spark 的 基于 Python 的 RDD API 编写 了 一 个 程序 ， 在 不 使 用 工具 类 的 大 约 10 
行 代码 中 ， 对 数据 集 进行 了 加 载 、 清 洗 、 连 接 、 过 滤 和 排序 。 如 你 所 见 ，Spark 的 RDD 
API 提供 了 更 丰富 的 功能 操作 ， 代 码 量 远 远 小 于 在 MapReduce 中 编写 的 类 似 程序 。 然 而 ， 
因为 RDD 是 一 种 通用 的 、 与 类 型 无 关 的 数据 抽象 ， 而 且 RDD 固定 的 模式 只 有 你 知道 ， 所 
以 处 理 结 构 化 数据 的 过 程 非常 繁琐 ， 这 通常 将 迫使 你 必须 编写 大 量 重复 代码 才能 访问 内 
部 数据 类 型 ， 以 及 将 简单 查询 操作 转换 为 RDD 操作 的 函数 语义 。 考 虑 图 8-1 所 示 的 操作 ， 
该 操作 试图 计算 各 学 科教 授 的 平均 年 龄 。 
















































































dept age name 
HSmith 


Bio 
CS 5 ATuring 
Bio 





48 
4 
42 B Jones 
Chem 61 M Kennedy 
RDD API 


pdata.map(lambda x: (x.dept, [x.age, 1])) \ 
.reduceBy Key(lambda x, y: [x[0] + y[0]，x[1] + y[1]]) \ 
.map(lambda x: [x[0], x[4][0] / x[1][1]]) \ 
.collect() 











8-1: 使 用 Spark 的 RDD API 进行 聚合 


在 实践 中 ， 使 用 关系 型 数据 的 通用 语言 SQL 来 处 理 这 样 的 结构 化 表格 数据 要 更 自然 一 些 。 
好 在 Spark 提供 了 一 个 集成 的 模块 ， 让 我 们 仅 用 一 行 简单 的 代码 就 表达 了 前 面 的 聚合 ， 如 
图 8-2 所 示 。 




















dept age name 


Bio 48 HSmith 
GS 54 ATuring 


Bio 42 BJones 
Chem 61 M Kennedy 


DataFrame API 
data.groupBy(“dept”).avg(“age”) 














8-2: 使 用 Spark 的 DataFrame API 进行 聚合 
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8.2.1 Spark SQL 


Spark SQL 是 Apache Spark 中 的 一 个 模块 ， 它 提供 了 一 个 关系 型 接口 ， 让 你 在 Spark 中 
使 用 熟悉 的 基于 SQL 的 操作 来 处 理 结构 化 数据 。 可 以 通过 JDBC/ODBC 连接 器 、 内 置 的 
交互 式 Hive 控制 台 或 其 内 置 的 API 访问 Spark SQL。 最 后 一 种 访问 方式 是 其 中 最 有 趣 ， 
也 是 最 强大 的 ， 因 为 实际 上 ，Spark SQL 是 作为 库 在 Spark 的 Core 引擎 和 API 之 上 运行 
的 。 所 以 ， 可 以 使 用 与 Spark 的 RDD API 相同 的 编程 接口 访问 Spark SQL 的 API， 如 图 8-3 


所 示 。 
Spark 


8-3: Spark SQL 接口 

























用 户 程序 


JDBC/ODBC (Scala, Java, pyspark) 











这 让 我 们 能 在 一 个 编程 环境 中 ， 将 关系 查询 的 优势 、Spark 过 程式 处 理 的 灵活 性 和 Python 
分 析 库 的 强大 功能 充分 结合 并 付 诸 实践 。* 


来 写 一 个 简单 的 程序 ， 用 Spark SQL API 加 载 JSON 数据 并 进行 查询 。 你 可 以 在 运行 着 的 
pyspark shell 中 直接 输入 这 些 命令 ， 也 可 以 在 使 用 pyspark 内 核 的 Jupyter notebook 中 输入 
这 些 命令 ;无 论 使 用 哪 种 方法 ， 都 要 确保 有 一 个 运行 着 的 SparkContext， 因 为 假定 变量 sc 
将 引用 它 。 

















以 下 示例 使 用 /sparksql 目录 下 运行 的 Jpyter notebook。 确 保 你 已 经 解压 了 
GitHub 仓库 的 /data 目录 中 的 sf_parking.zip 文件 。 可 以 在 GitHub 仓库 的 /sparksql 
目录 中 查看 sf_parking.ipynb 文件 。 























首先 ， 从 pyspark.sql 包 导 入 SQLContext 类 。SQLContext 类 是 Spark SQL API 的 入 口 ， 通 过 
包装 活动 的 SparkContext 对 象 创建 : 


from pyspark.sql import SQLContext 
sqlContext = SQLContext(sc) 


在 此 示例 中 ， 我 们 将 从 SF Open Data (https://data.sfgov.org) 加 载 一 个 JSON 格式 的 数据 
集 ， 该 数据 集 列 出 了 2011 年 9 月 旧金山 公开 可 用 的 路 边 停车 位 。” 





注 4: Michael Armbrust et al., “Spark SQL: Relational Data Processing in Spark” , ACM SIGMOD Conference 2015. 
注 5: SF Open Data, “Off-Street Parking Lots and Parking Garages” (http://bit.ly/1r2n9Do). 
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与 Hadoop 一 样 ，Spark SQL 也 要 求 将 JSON 数据 格式 化 。 所 以 ， 要 删除 第 一 
个 和 最 后 一 个 大 括号 或 中 括号 ， 让 每 个 JSON 对 象 都 包含 在 一 行 中 ， 后 跟 换 
行 符 ( 即 没有 跨越 多 行 的 JSON 对 象 )。 我 们 使 用 实用 程序 clean_json.py 为 
你 提供 了 一 个 已 清洗 的 数据 文件 ， 名 为 sf_parking_clean.json。 
但 对 于 极 大 的 数据 集 ， 你 可 以 使 用 Spark 来 执行 格式 化 。 例 如 ， 如 果 需 要 
手动 删除 JSON 文件 的 第 一 个 和 最 后 一 个 方 括号 ， 可 以 这 样 加 载 和 格式 化 
文件 : 

input = sc.wholeTextFiles(input_path).map \ 

(Lambda (x,y): y) 

data = input.flatMap(lambda x: json.Loads(x)) 


data.map(lambda x: json.dumps(x)) \ 
.SaveAsTextFile(output_path) 

















wholeTextFiles 函数 创建 了 一 个 PairRDD， 其 中 键 是 拥有 完整 路 径 的 文件 名 
(例如 “hdfs://localhost:9000/user/hadoop/sf_parking/sf_parking.json”)， 值 是 整 
个 文件 内 容 的 字符 串 。 使 用 map 操作 提取 内 容 作 为 输入 ， 然 后 使 用 flatMap 
将 字符 串 内 容 读 取 为 JSON 格式 。 











调整 文件 至 正确 格式 后 ， 通 过 调用 sqlContext.read.json 并 将 文件 的 路 径 传递 给 它 ， 就 可 
以 轻松 加 载 文件 内 容 了 : 


parking = sqlContext.read.json('../data/sf_parking/sf_parking_clean.json') 


也 可 以 将 一 个 目录 的 路 径 传递 给 sqLContext，sqLContext 会 将 其 中 所 有 的 文件 加 载 到 


parking 对 象 中 。Spark SQL 








漂亮 的 树 形式 来 显示 它 。 


parking.printSchema() 


root 


address: string (nullable = true) 


-- garorlot: string (nullable = true) 
- Landusetyp: string (nullable = true) 
- location 1: struct (nullable = true) 


|-- latitude: string (nullable = true) 
|-- Longitude: string (nullable = true) 
|-- needs_recoding: boolean (nullable = true) 


- mccap: string (nullable = true) 

- owner: string (nullable = true) 

- primetype: string (nullable = true) 
- regcap: string (nullable = true) 

-- secondtype: string (nullable = true) 
- valetcap: string (nullable = true) 


还 可 以 查看 第 一 行 数据 : 


parking.first() 


Row(address=y'2110 Market St', garorlot=u'L', landusetyp=u'restaurant', 


自动 推断 JSON 数据 集 的 模式 ， 可 以 使 用 printSchema 方法 以 
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Location_1=Row(Latitude=u'37.767378' ，Longitude=u' -122.429344 ' ， 
needs_recoding=FaLse)，mccap=u'0' ，owner=u'pPrivate' ，primetype=U'PPA' ， 
regcap=u'13' ，secondtype=u' '，VvalLetcap=u'0') 


为 了 对 数据 集运 行 SQL 语句 ， 必 须 先 将 其 注册 为 临时 命名 表 : 
parking.registerTempTable("parking") 


这 才 人 允许 我 们 运行 额外 的 表 和 SQL 方法 ， 比 如 用 表格 形式 显示 前 20 行 数据 的 show: 


parking. show() 








.. .Output truncated... 


如 果 要 在 parking 表 上 执行 SQL 语句 的 话 ， 就 需要 使 用 sql 方法 ， 并 将 完整 的 查询 语句 传 
递 给 它 。 来 运行 一 个 聚合 ， 按 照 主 要 类 型 和 次 要 类 型 对 停车 场地 进行 分 组 ， 获 得 停车 场地 
的 数量 以 及 普通 停车 位 的 平均 个 数 。 将 其 存储 在 aggr_by_type 中 ， 并 调用 show() 来 查看 
完整 的 结果 : 


aggr_by_type = sqlContext.sql("SELECT primetype, secondtype, 
count(1) AS count, 
round(avg(regcap), 0) AS avg_spaces "+ 
"FROM parking " + 
"GROUP BY primetype, secondtype ”+ 
"HAVING trim(primetype) != '' "+ 
"ORDER BY count DESC") 


























aggr_by_type. show() 


除了 JSON 之 外 ，Spark SQL 还 支持 其 他 几 种 数据 源 ， 比 如 本 地 文件 系统 、HDEFS 或 S3 
中 的 文件 (例如 文本 文件 、parquet 文件 、CSV 文件 等 ，CSYV 文件 可 以 使 用 Databricks 的 
CSV-reader 实用 程序 解析 ，https://github.com/databricks/spark-csv)、JDBC 数据 源 (例如 
MySQL) 和 Hive。 此 外 ，Spark 甚至 可 以 作为 Hive 的 底层 执行 引擎 使 用 ， 只 需 在 活动 的 


Hive 会 话 中 设置 hive.execution.engine=spark 即 可 。 


但 Spark SQL 模块 可 不 仅仅 是 一 个 SQL 接口 而 已 ， 它 的 强大 归根 到 底 来 源 于 其 底层 的 数据 
抽象 























DataFrame。 


8.2.2 DataFrame 


DataFrame 是 Spark SQL 中 的 底层 数据 抽象 。Python Pandas (http://pandas.pydata.org) 
和 R (https://www.r-project.org) 的 用 户 应 该 非常 熟悉 数据 框 的 概念 ， 事 实 上 ，Spark 的 
DataFrame 与 原生 的 Pandas (使 用 pyspark) 和 R 数 据 框 (使 用 SparkR，https:/spark. 
apache.org/docs/1.6.0/sparkr.html) 是 可 以 互 操 作 的 。DataFrame 在 Spark 中 也 表示 已 定义 模 
式 的 数据 的 表 。Spark 的 DataFrame 和 Pandas、R 的 数据 框 的 关键 区 别 是 ， 前 者 实际 上 是 
一 个 包装 了 RDD 的 分 布 式 集合 ; 你 可 以 将 其 视 为 行 对 象 的 RDD。 

此 外 ，DataFrame 操作 在 底层 进行 了 许多 优化 ， 不 仅 将 查询 计划 编译 为 可 执行 代码 ， 而 且 
与 硬 编码 的 RDD 操作 相 比 ， 性 能 有 显著 提升 ， 内 存 占用 的 空间 也 大 幅 减 少 。 事 实 上 ， 如 
果 在 一 个 基准 测试 中 ， 将 聚合 了 1000 万 整数 对 的 DataFrame 代码 和 与 之 等 效 的 RDD 代码 
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进行 运行 时 间 上 的 对 比 ， 你 会 发 现 DataFrame 不 仅 速度 快 4~5 倍 ， 而 且 还 消除 了 Python 和 
JVM 实现 (http://bit.ly/1r2vVMhm) 的 性 能 差距 ， 如 图 8-4 所 示 。 








不 仅 代 码 量 更 少 ， 而 且 速度 更 快 
DataFrame 9QL 
DataFrame Python 
DataFrameScala 
RDD Python 
RDD Scala 

0 2 4 6 8 10 
聚合 1000 万 整数 对 所 需 的 时 间 ( 秒 ) 











图 8-4: DataFrame 优化 


DataFrame API 简洁 直观 的 语义 ， 加 上 它 计 算 引 擎 提供 的 性 能 优化 ， 促 使 DataFrame 成 为 
了 Spark 所 有 模块 (包括 Spark SQL、RDD、MLlib 和 GraphX) 的 主要 接口 。 通 过 这 种 方 
式 ，DataFrame API 提供 了 统一 的 引擎 ， 跨 越 了 Spark 的 所 有 数据 产 、 工 作 负 载 和 环境 ， 如 
图 8-5 所 示 。 








Scala Java Python R 


DataFrames API 
Spark Spark l 











图 8-5: 作为 Spark 统一 接口 的 DataFrame 





在 上 一 个 例子 中 ,我们 使 用 Spark SQL 的 read 接口 加 载 了 SF 停车 场地 数据 。 但 实际 上 ， 
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我 们 创建 了 一 个 叫 作 parking 的 DataFrame。 在 那个 例子 中 ， 我 们 将 DataFrame 注册 为 临 
时 表 来 执行 原始 SQL 查询 ， 在 parking DataFrame 上 也 有 很 多 可 以 调用 的 关系 运算 符 和 窗 
口 函 数 。 事 实 上 ， 通 过 将 几 个 简单 的 DataFrame 操作 连接 起 来 ， 就 可 以 重 写 上 一 个 例子 中 
的 SQL 查询 : 


from pyspark.sql import functions as F 














aggr_by_type = parking.select("primetype", "secondtype", "regcap") \ 


.where("trim(primetype) != ''") \ 
.groupBy("primetype", "secondtype") \ 
.agg( 


F.count("*").alias("count"), 
F.round(F.avg("regcap"), 0).alias("avg_spaces") 


)\ 

.Sort("count", ascending=False) 
与 原始 SQL 相 比 ， 这 种 方法 可 以 通过 连续 链接 和 测试 操作 ， 轻 松 迭 代 复 杂 查 询 ， 这 是 它 的 
优势 。 此 外 ， 我 们 还 可 以 使 用 DataFrame API 访问 大 量 的 内 置 函 数 集合 ， 比 如 之 前 使 用 的 
count、round 和 avg 聚合 函数 。pyspark.sql.functions 模块 还 包含 一 些 数 学 和 统计 工具 ， 
其 中 包含 的 函数 可 用 于 : 


。 随机 数据 的 生成 

。 总 结 和 描述 性 数据 

。 样本 协 方差 和 相关 性 
。 交叉 表 (〈 亦 称 列 联 表 ) 
。 频率 计算 

来 使 用 一 个 这 样 的 函数 计算 一 些 描 述 性 的 总 结 统计 数据 ， 以 便 对 可 用 停车 场地 数据 的 分 布 
和 频率 有 更 好 的 了 解 。describe 函数 返回 一 个 DataFrame， 其 中 包含 每 个 指定 数字 列 的 非 
空 条 目 计数 、 平 均值 、 标 准 差 、 最 小 值 和 最 大 值 


parking.describe("regcap", "valetcap", "mccap").show() 
























































+------- +------------------ +------------------ +------------------ 十 
|summary| regcap| valetcap| mccap| 
+------- +------------------ +------------------ +------------------ + 
| count| 1000| 1000 | 1000| 
| mean| 137.294| 3.297| 0.184| 
| stddev|361.05120902655824|22.624824279398823|1.9015151221485882 | 
| min| 0| ol 0| 
| max| 998| 96| 8| 
+------- +------------------ +------------------ +------------------ + 


也 许 我 们 想 确 定 停车 场地 所 有 者 和 停车 场 主要 类 型 (“primetype”) 之 间 的 联合 频率 分 布 。 
在 统计 学 中 ， 这 通常 通过 计算 列 联 表 或 交 又 表 完 成 ， 这 两 种 表 以 矩阵 格式 显示 两 个 变量 
间 的 共 现 频率 。 使 用 stat 接口 中 的 crosstab 方法 就 可 以 轻松 为 Spark DataFrame 计算 该 分 
布 了 : 








parking.stat.crosstab("owner", "primetype").show() 


+------------------- +---+---+---+---+---+ 
| owner_primetype|PPA|PHO|CPO|CGO| | 


| Port of SF| 7| 7| 60| 4| 9| 
| SFPD| 60| 3| 96| 6| ol 
| SFMTA| 42| 14| 6| 9| ol 
|GG Bridge Authority| 2| 0| 0| 0| 9| 
| SFSU| 2| 6| 0| 060| | 
| SFRA| 2| 0| 9| 060| | 
. .Output truncated.. 


数据 整理 DataFrame 

请 注意 ， 因 为 “owner” 列 看 上 去 是 高 基数 维度 ， 因 此 结果 被 截断 为 前 20 行 数据 。 虽 然 
Pandas 和 有 R 的 用 户 应 该 能 很 好 地 理解 Spark DataFrame API 中 的 许多 操作 和 功能 ， 但 由 于 
DataFrame 本 质 上 的 不 可 变性 和 分 布 式 特性 ， 所 以 它 的 一 些 有 别 于 Pandas/R 的 地 方 应 该 
被 注意 。 例 如 ， 尽 管 Spark 在 加 载 时 尽 可 能 推断 数据 类 型 ， 但 默认 的 回 退 类 型 (fallpack 
type) 还 是 字符 串 ， 这 一 点 在 SF 停车 示例 中 的 “regcap” 列 有 所 体现 。 在 Pandas 中 ， 可 以 
通过 选择 该 列 并 使 用 astype 轻松 转换 该 列 值 的 类 型 ; 


parking[ 'regcap'].astype(Cint) 


但 由 于 DataFrame 实际 上 只 是 RDD 的 封装 ， 是 不 可 变 的 集合 ， 因 此 需要 执行 几 个 步骤 才 
能 将 此 列 转换 为 int 类 型 。 这 种 解决 方法 会 根据 现 有 列 创建 一 个 新 列 ， 将 其 值 转换 为 正确 
的 类 型 ， 最 后 删除 旧 列 。 为 了 保留 列 名 ， 首 先 使 用 withCoLumnRenamed 方法 将 现 有 列 重 命 
名 为 “regcap_old”， 然 后 使 用 withColumn 方法 添加 新 的 “regcap” 列 ， 该 列 包含 regcap_old 
中 转换 类 型 后 的 值 :“ 






























































parking = parking.withColumnRenamed('regcap', 'regcap_old') 
parking = parking.withColumn('regcap', parking['regcap_old'].cast('int')) 
parking = parking.drop('regcap_old') 


parking.printSchema() 


因为 其 他 数值 列 也 需要 进行 这 个 转化 ， 所 以 本 着 DRY 的 精神 ， 来 定义 一 个 工具 函数 ， 为 
任意 列 和 数据 类 型 执行 这 种 转换 : 


def convert column(df, col, new_type): 
old col = '%s_old' % col 
df = df.withColumnRenamed(col, old_col) 
df = df.withColumn(col, df[old_coll].cast(new_type)) 
df.drop(old_col) 
return df 


parking = convert_column(parking, 'valetcap', 'int') 
parking = convert _ column(parking, 'mccap', 'int') 
parking.printSchema() 

















注 6: 虽然 这 里 使 用 的 是 Spark 的 cast 方法 ,但 是 从 Spark 1.4 起 也 可 以 使 用 astype， 它 是 cast 方法 的 
Pandas 友好 别名 。 
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不 幸 的 是 ， 这 个 国 数 不 能 处 理 “latitude” 和 “longitude"， 因 为 它们 实际 上 是 “location_1” 
结构 中 的 字段 。 我 们 可 以 进行 一 些 改良 ， 定 义 另 一 个 参数 为 “location_1” 结 构 类 型 的 函 
数 ， 使 用 Google 的 Geocoding API (http://bit.ly/1r2xH5F) 执行 经 纬度 查找 ， 以 返回 邻 域名 
称 。 使 用 requests (http://docs.python-requests.org/en/master/) 库 来 发 送 请 求 : 





import requests 


def to_neighborhood(location): 
使 用 Google 的 Geocoding API 执 行经 纬度 的 逆向 查找 
https://developers.google.com/maps/documentation/geocoding/intro#reverse- 
example 
name = 'N/A' 
Lat = location. latitude 
Long = Location.Longitude 








r = requests.get( 
'https://maps.googleapis.com/maps/api/geocode/json?latlng=%s,%s' % 
(lat, long)) 


if r.status_code == 200: 
content = r.json() 
# results 是 匹配 地 址 的 列表 
places = content['results'] 
neighborhoods = [p['formatted address'] for p in places if 
'neighborhood' in p['types']] 


if neighborhoods: 
# 地 址 格式 为 Japantown，San Francisco, CA 
# 所 以 根据 喜 号 分 割 ,返回 邻 域 名 称 
name = neighborhoods[0].split(',')[0] 

















return name 


to_neighborhood 国 数 接受 一 个 Location 结构 并 返回 一 个 字符 串 类 型 ， 但 是 如 何在 列表 达 
式 中 使 用 这 个 函数 呢 ? pyspark.sql.functions 模块 提供 了 用 于 注册 UDF 的 udf 函数 。 通 
过 向 UDF 传递 一 个 可 调用 的 Python 函数 和 该 函数 的 返回 类 型 对 应 的 Spark SQL 数据 类 型 ， 
我 们 声明 了 一 个 内 联 UDF， 在 这 个 示例 中 ， 返 回 的 是 一 个 字符 串 ， 所 以 使 用 pyspark.sql.types 
中 的 StringType 数据 类 型 。 注 册 后 ， 可 以 使 用 该 UDF 通过 一 个 withColumn 表达 式 重新 格 
式 化 “location_1“ 列 : 


from pyspark.sql.functions import udf 
from pyspark.sql.types import StringType 




















location_to_neighborhood=udf(to_neighborhood, StringType()) 


sfmta_parking = parking.filter(parking.owner == 'SFMTA') \ 
.select("location 1", "primetype", "landusetyp", 
"garorlot", "regcap", "valetcap", "mccap") \ 
.withColumn("Llocation 1" ， 
Location_to_neighborhood("Location_1")) \ 
.Sort("regcap", ascending=False) 





sfmta_parking.show() 


+------------------ +--------- +---------- +-------- +------ +-------- +----- + 
| Location_1|primetype|Landusetyp|garorLot|regcap|vaLetcap|mccap| 
+------------------ +--------- +---------- +-------- +------ +-------- +----- + 
| South of Market| PPA| | G| 2585| 0| 47| 
| N/A| PPA| | G| 1865| 0| 0| 
|Financial District| PPA| | G| 1095| 0| 9| 
| Union Squarel| PPA| | G| 985| 0| 90| 


. output truncated .. 








在 Spark 本 地 模式 下 ， 由 于 Python 的 全 局 解释 器 锁 (global interpreter lock， 
GIL，https://wiki.python.org/moin/GlobalInterpreterLock) 的 线程 限制 ， 我 们 
无 法 并 行 化 对 API 的 HTTP 请 求 。 因 此 ， 在 本 地 模式 下 使 用 此 实用 程序 将 需 
要 串 行 运行 整个 RDD， 这 可 能 需要 相当 长 的 时 间 。 因 此 ， 为 了 让 操作 在 合 
理 的 时 间 内 完成 ， 此 示例 将 DataFrame 过 滤 到 了 合适 的 大 小 。 
































如 你 所 见 ， 使 用 Spark 的 DataFrame API 定义 、 注 册 UDF 的 过 程 比 使 用 Pig 和 Hive 容 
易 得 多 。 一 旦 注册 ，UDF 不 仅 可 以 被 同一 个 Spark 集群 上 的 其 他 程序 使 用 ， 也 可 以 被 通 
过 JDBC/ODBC 接口 连接 到 Spark SQL 上 的 BI 工 具 使 用 。 这 使 得 udf 函数 轻松 成 为 了 
DataFrame API 提供 的 最 强大 的 函数 ， 因 为 它 向 SQL 用 户 展现 了 应 用 高 级 计算 或 操作 的 无 
限 可 能 性 。 本 书 没 有 涉及 的 内 置 功 能 和 函数 还 有 很 多 ， 它 们 的 数量 也 会 随 着 Spark 版 本 的 
发 布 而 不 断 增长 。 

要 查看 受 pyspark 的 Spark SQL 和 DataFrame API 支持 的 类 和 函数 的 最 新 列表 ， 请 参见 官方 
API 文档 。Spark 开发 新 闻 的 另 一 个 重要 来 源 是 Databricks 公司 (https://databricks.com/)， 由 
Spark 创始 人 创立 。Databricks 经 常 发 布 博文 ， 描 述 所 有 新 添加 到 API 中 的 主要 功能 ， 例 如 
“Statistical and Mathematical Functions with DataFrame in Spark” (http:/Wbitly/26B8HDd) 。 


8.3 小 结 


在 本 章 中 ， 我 们 了 解 了 Pig 如 何 大 大 简化 了 MapReduce 数据 流水 线 的 构建 过 程 。Pig 的 主 
要 使 用 场景 是 传统 的 ETL 数据 流水 线 过 程 ， 但 它 也 是 一 种 很 好 的 工具 ， 非 常 适用 于 执行 临 
时 分 析 ， 并 从 大 批量 数据 中 构建 迭代 处 理 或 预测 模型 ， 当 分 析 越 来 越 复杂 时 尤其 如 此 。 
我 们 还 介绍 了 Spark SQL 模块 和 DataFrame API。Spark 提供 了 内 置 集成 ， 支 持 对 结构 
化 数据 集 的 关系 处 理 ， 并 允许 用 户 在 单个 编程 环境 中 将 关系 处 理 和 复杂 的 分 析 相 结合 。 
DataFrame 为 Hadoop 或 Spark 的 Python 程序 员 提 供 了 广泛 的 、 前 所 未 有 的 分 析 可 能 性 。 
推荐 你 阅读 你 偏爱 的 语言 栈 的 Spark 官方 DataFrame API 文档 (http://spark.apache.org/ 
docs/latest/sql-programming-guide.html) ， 进 一 步 探索 Spark 的 DataFrame API; 并 时 刻 关 注 
Spark 新 闻 (http://spark.apache.org/news/) ， 留 意 未 来 发 展 。 
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机 才学 习 计 算 旨 在 从 当前 和 历史 数据 中 推导 出 预测 模型 。 它 作出 了 一 个 固有 假设 ， 即 经 历 
越 多 训练 或 获取 越 多 经 验 ， 学 习 获 得 的 算法 将 改进 越 多 。 通 过 从 大 数据 集训 练 出 来 的 模 
型 ， 机 器 学 习 算 法 可 以 在 非常 小 的 领域 实现 非常 好 的 预测 效果 。 
因此 ， 大 多 数 机 器 学 习 算 法 都 涉及 大 规模 计算 。 出 于 这 个 原因 ， 机 器 学 习 计 算 非 常 适用 于 
Spark 等 分 布 式 计算 范式 ， 利 用 大 型 训练 集 生成 有 意义 的 结果 。 本 章 将 介绍 Spark 内 置 的 
机 器 学 习 库 Spark MLlib (http://spark.apache.org/docs/1.5.0/mllib-guide.html)。 它 由 许多 
常见 的 学 习 算 法 和 实用 程序 组 成 ， 比 如 分 类 、 回 归 、 聚 类 、 协 同 过 滤 、 降 维 以 及 一 个 新 的 
“机 器 学 习 流 水 线 ” 框 架 一 一 spark.ml。spark.ml 提供 了 一 套 统 一 的 高 级 API， 可 以 帮助 用 
户 创建 和 优化 实际 的 机 器 学 习 流水 线 。” 


9.1 使 用 Spark 进 行 可 扩展 的 机 器 学 习 


在 第 4 章 中 ， 我 们 将 Spark 作为 一 个 可 在 Hadoop 集群 上 运行 的 内 存 分 布 式 计算 引擎 进行 
了 介绍 。 而 且 ，Spark 平台 还 附带 了 几 个 使 用 Spark 处 理 引 警 的 内 置 组 件 ， 来 支持 其 他 类 
型 的 分 析 工 作 ， 这 些 功能 都 受益 于 Spark 的 计算 优化 。 本 章 将 仔细 研究 Spark 的 内 置 机 器 
学 习 库 一 一 MLlib。 该 库 包 含 一 套 通 用 的 统计 和 机 器 学 习 算法 和 实用 程序 ， 它 们 都 被 设计 
为 能 在 集群 中 扩展 。” 

有 些 人 可 能 对 数据 挖掘 和 机 器 学 习 的 编程 库 很 熟悉 ， 比 如 Python 的 Weka (http://www. 
cs.waikato.ac.nz/ml/weka/) 或 者 Scikit-Learn (http://scikit-learn.org)。 虽 然 用 这 些 库 能 游 丸 












































注 1: 参见 Spark 的 Machine Learning Library (MLlib) Guide (http://spark.apache.org/docs/1.5.0/mllib-guide.htm!l ) 。 
注 2:《Spark 快速 大 数据 分 析 》，Holden Karau 等 人 著 。 本 书 已 由 人 民 邮 电 出 版 社 出 版 ，http://www .ituring. 
com.cn/book/1558。 
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有 余地 应 对 可 以 在 单个 机 器 上 处 理 的 中 小 型 数据 集 ， 但 对 于 要 求 分 布 式 存储 和 并 行 处 理 的 
大 型 数据 集 ， 我 们 不 仅 需 要 可 以 处 理 分 布 式 数据 集 的 计算 引擎 ， 还 需要 为 并 行 平 台 设 计 的 
算法 。Spark MLlib 仅仅 包含 并 行 算法 ， 使 用 Spark 的 RDD 操作 跨 节点 并 行 应 用 操作 。 好 
在 有 许多 机 器 学 习 技术 和 算法 都 非常 适合 并 行 化 。 但 一 定 要 记 住 ， 与 Spark API 一 样 ， 使 
用 Spark MLlib 时 要 注意 创建 数据 〈 作 为 RDD)， 并 以 分 布 式 并 行 化 的 方式 对 数据 进行 操 
作 。 例 如 ， 对 一 个 原始 类 型 的 小 数据 集 (Python 字典 或 列表 ) 调用 parallelize()， 以 便 
将 其 提供 给 集群 中 的 所 有 节点 。 


Spark MLlib 包括 一 些 统计 和 机 器 学 习 技术 ， 比 如 采样 、 相 关 计算 、 假 设 检 验 等 。 而 我 们 将 
主要 关注 MLlib 的 机 器 学 习 算法 。 这 类 算法 基于 训练 数据 寻找 算法 行为 的 数学 最 优 解 ， 从 
而 作出 预测 和 决策 。?Spark MLlib 学 习 算 法 集中 在 机 器 学 习 的 三 个 关键 领域 ， 通 常 被 称 为 
机 器 学 习 的 3C。 


协同 过 滤 (collaborative filtering ) 
也 被 称 为 推荐 引擎 。 它 基于 过 去 的 行为 、 偏 好 或 与 已 知 实体 /用户 的 相似 性 产生 推荐 。 


分 类 (classification ) 


也 被 称 为 有 监督 学 习 。 它 从 监督 训练 集中 学 习 ， 并 根据 该 训练 集 对 未 分 类 项 进行 分 类 。 


聚 类 (clustering ) 
也 被 称 为 无 监督 学 习 。 它 基于 类 似 特 征 ， 将 数据 分 组 为 集群 。 

一 般 来 说 ， 要 想 实现 这 些 算法 ， 得 先 从 数据 中 定义 和 提取 一 组 特征 作为 特征 的 数值 表示 。 
例如 ， 如 果 我 们 要 设计 一 个 能 推荐 具有 相似 属性 (价格 、 颜 色 、 品 牌 等 ) 产品 的 推荐 系 
统 ， 就 可 以 定义 由 每 个 产品 属性 的 加 权 数 值 组 成 的 特征 向 量 。 或 者 ， 当 我 们 想 提 取 非 结构 
化 文本 的 特征 ( 即 基于 垃圾 邮件 ， 检 测 过 滤 电 子 邮件 ) 时 ， 则 可 以 用 每 个 词 在 每 个 分 类 类 
别 ( 即 是 垃圾 邮件 或 不 是 垃圾 邮件 ) 的 词 频 - 逆 文 档 频率 〈TF-IDF) 的 向 量 来 表示 它 。 
一 旦 从 数据 中 提取 了 特征 向 量 ， 就 可 以 将 它们 作为 训练 数据 提供 给 机 器 学 习 算 法 ， 该 算法 
将 返回 表示 预测 的 训练 模型 。 在 训练 有 监督 学 习 模型 时 ， 通 常会 保留 一 部 分 训练 数据 作为 
“测试 数据 "， 将 模型 应 用 于 测试 数据 ， 并 通过 比较 测试 数据 的 预测 结果 与 实际 结果 来 量化 
模型 的 准确 性 。 这 使 我 们 能 评估 模型 的 准确 性 并 优化 其 精度 。 机 器 学 习 流 水 线 的 概览 图 如 
图 9-1 所 示 。 
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9-1: 机 器 学 习 流水 线 








注 3: SNN Adaptive Intelligence, “What Is Machine Learning?” (http://www.mlplatform.nl/what-is-machine-learning/). 





机 器 学 习 | 155 


和 并 使 用 MLlib 内 置 的 一 
些 评估 工具 来 评估 我 们 的 学 习 模 型 。 假 设 你 已 经 安装 了 Spark 并 符合 运行 Spark MLlib 的 
要 求 ， 具体 内容 请 参见 附录 B。 


9.1.1 协同 过 滤 
协同 过 滤 (或 推荐 系统 ) 应 该 最 常见 于 电子 商务 领域 ， 比 如 亚马逊 和 Netflix 等 公司 通过 挖 


据 用 户 行为 数据 (如 浏览 、 评 分 、 点 击 和 购买 ) 来 推荐 其 他 产品 。 广义 上 ， 协 同 过 滤 算 法 
分 为 两 种 。 


基于 用 户 的 推荐 系统 

查找 与 目标 用 户 相似 的 用 户 ， 使 用 其 协同 评分 为 目标 用 户 提供 推荐 。 
基于 物品 的 推荐 系统 

查找 并 推荐 与 目标 用 户 相 关联 物品 相似 或 相关 的 物品 。 
MLlib 的 协同 过 滤 库 专注 于 基于 用 户 的 推荐 ， 使 用 交替 最 小 二 乘法 (alternating least 
squares，ALS) 算法 的 实现 。 "MLlib 的 协同 过 滤 方 法 将 用 户 的 偏好 表示 为 用 户 物 品 关联 和 矩 
阵 ， 其 中 每 位 用 户 和 物品 的 点 积 通过 将 偏好 评分 (或 评级 ) 与 加 权 因 子 相 乘 获取 。 这 样 
我 们 就 能 接收 用 户 的 显 式 反馈 (例如 正 评 分 、 购 买 ) 和 隐 式 反馈 (例如 浏览 、 点 击 )， 并 
将 它们 并 入 模型 中 ， 作 为 二 元 偏好 和 置信 和 度 值 的 组 合 。 然 后 ， 该 模型 将 去 寻找 可 用 于 预测 
物品 的 预期 偏好 的 隐语 义 因子 。 
示例 : 一 个 基于 用 户 的 推荐 系统 
试 着 用 MLlib 的 ALS 算法 为 在 线 约会 服务 生成 推荐 (或 潜在 ) 对 象 。 我 们 将 根据 已 有 的 
交友 网 站 的 个 人 资料 评分 数据 集 为 特定 用 户 生 成 推荐 内 容 。 
在 GitHub 仓库 的 data/mllib/dating 目录 中 ， 你 可 以 找到 包含 数据 集 的 两 个 CSV 文件 : 168 791 
份 用 户 个 人 资料 (gender.dat)， 以 及 一 百 万 条 以 上 关于 他 们 的 用 户 评分 数据 (ratings.dat)。 
这 些 数 据 可 从 Occam 的 实验 室 (http://www.occamslab.com/petricek/data) 获取 。 
评分 数据 遵从 以 下 格式 : UserID、ProfileID、Rating。UserID 是 提供 评分 的 用 户 ，ProfileID 
是 被 评分 的 用 户 ，Rating 是 1~10 的 评分 ， 其 中 10 是 最 高 
UserID 的 范围 介 于 1~135 359，ProfileID 的 范围 介 于 1~220 970 (并 非 每 份 用 户 资 料 都 被 评 
过 分 )。 只 有 至 少 提供 了 20 条 评分 的 用 户 才 会 被 纳入 ， 一 直 打 同样 分 数 的 用 户 将 被 排除 。 
用 户 的 性 别 信息 遵从 以 下 格式 : UserID、Gender， 其 中 男性 为 “M”、 女 性 为 “F”、 未 知 
鸭 


可 运行 的 完整 约会 推荐 程序 可 以 在 GitHub 仓库 的 如 下 目录 中 找到 


hadoop-fundamentals/mllib/collaborative filtering/als/matchmaker .py 


使 用 spark-submit 命令 ， 并 向 它 传递 两 个 参数 : UserID (要 为 谁 生成 推荐 ) 以 及 M 或 F 






































































































































注 4: Koren Yehuda et al., “Matrix Factorization Techniques For Recommender Systems” (http://dl.acm.org/citation. 
cfm?id=1608614), Computer 14.8(2009):30-37. 





(对 伴侣 的 性 别 偏好 ) ， 该 程序 就 可 以 在 Spark 上 运行 了 。 建 议 将 此 输出 通过 管道 写 和 人 到 一 
个 文件 中 : 


$ S$SPARK_HOME/bin/spark-submit \ 
~/hadoop-fundamentals/mllib/collaborative filtering/als/matchmaker.py 1 MA 
> ~/matchmaking_recs.txt 


我 们 将 分 析 该 程序 的 每 个 主要 步 又 。 首 先 ， 使 用 应 用 程序 的 名 称 配 置 SparkContext， 并 将 
每 个 executor 使 用 的 内 存 大 小 设置 为 2GB， 因 为 ALS 算法 处 理 这 个 数据 量 需 要 大 量 内 存 : 
# 配置 Spark 
conf = SparkConf().setMaster("local") \ 
.SetAppName("Dating Recommender") \ 


.Set("spark.executor .memory", "2g") 
sc = SparkContext(conf=conf) 


接 下 来 ， 读 取 UserID 参数 以 及 用 户 的 性 取向 ， 并 对 评分 文件 中 的 每 条 记录 调用 自 定义 的 
parse_rating 方法 : 





























def parse_rating(Line，sep='，): 
解析 评分 行 
返回 :元 组 (随机 整数 ，(user_id, profile_id, rating)) 











2 





fields = line.strip().split(sep) 

user_id = int(fields[0]) # 将 user_id 转 换 为 int 

profile id = int(fields[1]) # 将 profile_id 转 换 为 int 

rating = float(fields[2]) # 将 rated_id 转 换 为 int 

return random.randint(1, 10), (user_id, profile id, rating) 


给 定 一 个 评分 行 ，parse_rating 方法 返回 一 个 元 组 ， 其 中 第 一 项 是 一 个 随机 整数 ， 第 二 项 


是 另 一 个 元 组 (user_id, profile id，rating) : 





matchseeker = int(sys.argv[1]) 
gender_filter = sys.argv[2] 





# 创建 评分 RDD (随机 整数 ，(user_id, profile id, rating)) 

ratings = sc.textFile( 
"/home/hadoop/hadoop-fundamentals/data/dating/ratings.dat")\ 
.map(parse_rating) 


为 元 组 中 的 第 一 项 生成 一 个 随机 数 ， 之 后 它 将 作为 键 将 此 RDD 分 解 为 训练 集 和 测试 集 
ALS 要 求 将 Rating 对 象 表 示 为 (UserId，ItemId，Rating) 元 组 。 在 这 个 示例 中 ， en 
实际 将 映射 到 其 他 用 户 资 料 的 用 户 ID。 


接 下 来 ， 通 过 将 自 定义 的 parse_user 方法 映射 到 gender.dat 的 每 一 行 ， 读 取 用 户 个 人 资料 
数据 : 


def parse_user(line, sep="','): 


解析 用 户 行 
返回 :元 组 (user_id，gender) 



































fields = line.strip().split(sep) 
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user_id = int(fields[0]) # 将 user id 转换 为 int 
gender = fieLds[1] 
return user_id, gender 


给 定 一 个 用 户 行 ，parse_user 方法 返回 一 个 元 组 (user_id，gender)。 一 旦 用 户 元 组 的 
RDD 生成 ， 就 调用 collect() 将 RDD 转换 为 列表 : 


# 创建 用 户 RDD 

Users = dict(sc.textFile( 
"/home/hadoop/hadoop-fundamentals/data/dating/gender .dat")\ 
.map(parse_user).collect()) 


现在 来 将 评分 数据 分 为 训练 集 和 验证 集 ， 训 练 集 用 于 训练 模型 ， 验 证 集 用 于 评估 模型 。 
通过 对 添加 到 每 个 元 组 的 随机 整数 键 进行 过 滤 ， 保 留 60% 的 训练 数据 和 40% 的 验证 数 
据 。 将 分 区 数 设 置 为 4 (或 计算 机 支持 的 处 理 器 内 核 数 ) 并 缓存 结果 ， 提 高 RDD 的 并 
行 性 。 

# 基于 时 间 戳 的 最 后 一 位 ,创建 训练 集 (66%) 和 验证 集 (46%) 

num_partitions = 4 

training = ratings.filter(lambda x: x[0] < 6) \ 

.values() \ 


.repartition(num_ partitions) \ 
.Cache() 


























validation = ratings.filter(lambda x: x[0] >= 6) \ 
.values() \ 
.repartition(num_ partitions) \ 
.Cache() 


num_training = training.count() 
Num_validation = validation.count() 


print "Training: %d and validation: %d\n" % (num_training, num_validation) 
可 以 通过 设置 和 调整 ALS 提供 的 这 些 训练 参数 来 优化 模型 。 
rank 


使 用 的 特征 向 量 的 大 小 ， 由 隐语 义 因子 的 数量 决定 ，rank 越 大 ， 产 生 的 模型 越 好 ， 但 
计算 的 代价 也 更 大 (默认 值 为 10)。 


num_iterations 


迭代 次 数 (默认 值 为 10)。 


























Lambda 
正则 化 参数 (默认 值 为 0.01)。 
alpha 


常数 (默认 值 为 1.0)， 用 于 计算 隐 式 反馈 ALS 的 置信 度 。 
因为 此 例 只 捕获 显 式 评分 ， 所 以 将 忽略 aLpha 并 使 用 默认 值 。 其 他 参数 中 ，rank 使 用 8， 
将 迭代 次 数 设置 为 8，Lanbda 为 0.1。 由 于 对 数据 还 不 够 了 解 ， 无 法 确定 隐语 义 因 子 的 数量 
或 合适 的 正则 化 值 ， 所 以 这 些 初始 训练 参数 设置 得 有 些 随意 。 然 而 ， 可 以 先 从 这 个 组 合 开 
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始 ， 将 它 与 使 用 其 他 训练 参数 组 合 的 模型 进行 对 比 来 评估 结果 ， 确 定 最 佳 拟 合 模型 


# rank 是 模型 中 隐语 义 因子 的 数量 
# num_iterations 是 迭代 次 数 

# Lambda 指 定 ALS 中 的 正则 化 参数 
rank = 8 

num_iterations = 8 

lambda = 0.1 








现在 使 用 ALS.train() 方 法 创建 模型 ,该 方法 接受 评分 元 组 的 训练 RDD 和 我 们 的 训 
练 参数 : 


# 使 用 训练 数据 .已 配置 的 rank 和 和 迭代 参数 训练 模型 


model = ALS.train(training, rank, num_iterations, lambda) 





# 使 用 验证 集 评估 经 过 训练 的 模型 
print "The model was trained with rank = %d, lambda = %.1f, and %d iterations. 
\n"%\ 


(rank, lambda, num_iterations) 





在 详细 日 志 记 录 模 式 下 运行 tratn() 方法 时 要 小 心 ， 此 操作 需要 进行 几 次 
RDD 投影 和 操作 ， 因 此 可 能 会 有 长 达 几 分 钟 的 日 志 深 动 。 





模型 一 旦 被 创建 ， 就 使 用 均 方 根 误差 (root mean squared error，RMSE) 来 计算 每 个 模型 
的 误差 。RMSE 是 拥有 实际 评分 的 所 有 用 户 的 〈 实 际 评分 - 预测 评级 ) ^2 的 平均 值 的 平 
方 根 。” 


ol- 


n 
部 (model; 一 observed ; 2 
=1 


我 们 的 推荐 程序 也 可 以 相应 地 实现 RMSE 计算 : 


def compute_rmse(model, data, nN): 


el 
RMS = | 


计算 RMSE, 或 者 (实际 评分 -预测 评分 )^2 的 平均 值 的 平方 根 








predictions = modeL.predictALL(data.map(Lambda x: (x[0], x[1]))) 
predictions_ratings = predictions.map(lambda x: ((x[0], x[1]), x[2])) \ 
.join(data.map(lambda x: ((x[0], x[1]), x[2]))) \ 
.values() 
return sqrt(predictions_ratings.map(lambda x: (x[0] - x[1]) ** 2). \ 
reduce(add) / float(n)) 


RMSE 表示 模型 对 数据 的 绝对 拟 合 (观察 数据 点 与 模型 预测 值 的 接近 程度 )， 并 且 与 评分 
值 的 单位 相同 。RMSE 值 越 小 ， 拟 合 度 越 高 。 但 由 于 它 与 评分 值 相关 ， 所 以 应 该 按 1~10 
进行 评 佑 。 根 据 结 果 ， 可 以 通过 调整 训练 参数 ， 或 者 提供 更 多 或 更 好 的 训练 数据 ， 来 优化 


模型 : 


























注 5: Kaggle, “Root Mean Squared Error” (https:/www.kaggle.com/wiki/Root MeanSquaredError). 
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# 打印 模型 的 RMSE 


validation_rmse = compute_rmse(model, validation, num_validation) 


print "The model was trained with rank=%d, lambda=%.1f, and %d iterations." % \ 
(rank, lambda, num iterations) 
print "Its RMSE on the validation set is %f.\n" % validation_rmse 


假设 我 们 对 RMSE 值 反映 出 来 的 模型 拟 合 程度 很 满意 ， 就 可 以 用 它 来 为 给 定 用 户 生 成 推 
荐 了 。 通 过 根据 给 定 用 户 的 性 取向 进行 过 滤 ， 先 生成 一 组 符合 条 件 的 用 户 。 这 是 推荐 候 
选 人 RDD: 

# 根据 性 取向 进行 过 滤 


partners = sc.parallelize([u[0] for u in filter(lambda u: u[1] == 
gender_filter, users.items())]) 





现在 使 用 模型 的 predictALL() 方法 ， 问 它 传递 一 个 二 元 元 组 RDD，RDD 的 key 是 user_id， 
其 中 user_id 是 给 定 的 要 为 之 生成 推荐 的 用 户 (matchseeker)。 这 样 ， 模 型 就 能 生成 推荐 。 
我 们 会 将 结果 收集 到 一 个 列表 中 ， 按 照 评分 值 降 序 排序 ， 取 前 10 名 推荐 用 户 : 

# 使 用 经 过 训练 的 模型 进行 预测 


predictions = model.predictAll(partners.map(lambda x: (matchseeker, x))) \ 
.collect() 






































# 对 推荐 进行 排序 


recommendations = sorted(predictions, key=lambda x: x[2], reverse=True)[:10] 


最 后 ， 打 印 完整 的 推荐 列表 并 停止 SparkContext: 


print "Eligible partners recommended for User ID: %d" % matchseeker 
for i in xrange(len(recommendations)): 
print ("%2d: %s" % (i + 1, recommendations[i][1])).encode('ascii', 'ignore') 


























如 果 使 用 前 面 的 命令 将 此 作业 提交 到 Spark， 并 将 输出 保存 到 一 个 结果 文件 中 ， 应 该 会 看 
到 类 似 于 以 下 内 容 的 输出 : 


$ cat matchmaking_recs.txt 














Training: 542953 and validation: 542279 
The model was trained with rank = 8, lambda = 0.1, and 8 iterations. 
Its RMSE on the validation set is 3.580347. 


Eligible partners recommended for User ID: 1 
1: 100939 

: 70020 

: 109013 

: 54998 

:132170 

: 3843 

: 170778 


~ 上 ww 





160 | 第 9 章 


8: 51378 
9: 8849 
10: 118595 


RMSE 是 评估 模型 性 能 的 重要 指标 。 与 大 多 数 机 器 学 习 算 法 一 样 ， 协 同 过 滤 模 型 中 的 数 
据 和 迭代 次 数 越 多 ， 模 型 表现 越 好 。 建 议 你 尝试 对 ALS 使 用 不 同 的 rank、 和 迭代 次 数 和 正 
则 化 (Lambda) 参数 的 组 合 ， 比 较 RMSE 以 找到 最 佳 拟 合 的 参数 组 合 。 你 可 以 在 Spark 
MLlib 文档 的 “Collaborative Filtering” (http://spark.apache.org/docs/latest/mllib-collaborative- 
filtering.html#scaling-of-the-regularization-parameter) 找到 更 多 有 关 参 数 调 优 的 信息 ， 以 及 
一 个 实现 电影 推荐 系统 的 ALS 算法 示例 。 


9.1.2 分 类 

分 类 试图 通过 有 监督 训练 方法 将 数据 (通常 是 文本 或 文档 ) 分 类 ， 这 些 方法 使 用 带 标注 的 
训练 集 来 发 现 模式 ， 使 机 器 学 习 程序 能 快速 标记 新 记录 。 例 如 ， 一 个 简单 的 分 类 算法 可 能 
会 记录 与 类 别 相 关联 的 特征 和 词 ， 以 及 该 词 出 现在 给 定 类 别 中 的 次 数 。 一 旦 机 器 学 习 程 序 
从 训练 数据 中 提取 出 了 特征 ， 它 就 可 以 生成 特征 向 量 并 应 用 统计 模型 构建 预测 模型 ， 然 后 
将 预测 模型 应 用 于 新 的 数据 。 
MLlib 提供 了 一 些 用 于 二 分 类 、 多 分 类 以 及 回归 分 析 的 算法 。 在 二 分 类 中 ， 我 们 希望 将 实 
体 分 为 两 个 不 同 的 类 别 或 标签 (例如 确定 电子 邮件 是 否 为 垃圾 邮件 ) ;在 多 分 类 中 ， 我 们 
希望 将 实体 分 类 为 两 个 以 上 的 类 别 (例如 确定 新 闻 报道 属于 哪个 类 别 ) ， 回 归 分 析 算 法 的 
目标 是 ， 使 用 连续 函数 估计 因 变 量 (例如 身体 活动 水 平 ) 与 一 个 或 多 个 自 变量 (例如 心脏 
病 的 风险 ) 之 间 的 关系 和 依赖 性 。 


在 这 些 类 型 的 算法 中 ，MLlib 实现 都 要 对 一 组 带 标签 的 例子 (example) 应 用 算法 。 这 些 例 
子 被 表示 为 LabeledPoint 对 象 ， 包 括 一 个 数值 (用 于 二 分 类 ) 或 特征 向量 (用 于 多 分 类 ) 
以 及 类 别 标签 。 已 经 分 类 的 LabeledPoints 中 的 训练 数据 用 于 训练 模型 ， 然 后 用 模型 去 预 
测 新 实体 的 类 别 。 
MLlib 的 官方 文档 (http://bit.ly/26Bp4zE) 按 类 别 列举 了 所 有 支持 的 分 类 算法 。 本 节 将 通过 
随机 梯度 下 降 的 逻辑 回归 过 程 (也 被 称 为 LogisticRegressionNitthSGD) 创建 一 个 简单 的 二 
分 类 器 。 
示例 : 一 个 逻辑 回归 分 类 
在 这 个 示例 中 ， 我 们 将 构建 一 个 简单 的 垃圾 邮件 分 类 器 ， 使 用 已 经 分 类 (垃圾 邮件 和 非 垃 
圾 邮件 ) 的 电子 邮件 数据 进行 训练 。 此 垃圾 邮件 分 类 器 将 使 用 两 个 MLlib 算法 : HashingTF 
和 LogisticRegressionWithsGD， 前 者 从 训练 文本 提取 词 频 向 量 作 为 特征 向 量 ， 后 者 使 用 随 
机 梯度 下 降 (http://bit.ly/26Bp7vf) 实现 逻辑 回归 。 
可 以 在 GitHub 仓库 的 /data 目录 中 的 spam_classifier.zip 中 找到 训练 数据 spam.txt 和 ham.txt。 
此 数据 是 SpamAssassin 公共 语料库 (http://spamassassin.apache.org/publiccorpus/) 的 一 个 子 
。 完 整 的 垃圾 邮件 分 类 程序 可 以 在 mllib/classification 目录 下 找到 ， 可 以 使 用 以 下 命令 运 
行程 序 : 
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$ $SPARK_HOME/bin/spark-submit \ 
/home/hadoop/hadoop-fundamentals/mllib/classification/spam classifier.py \ 
/home/hadoop/hadoop-fundamentals/data/spam_classifier/spam.txt \ 
/home/hadoop/hadoop-fundamentals/data/spam_classifier/ham.txt 


我 们 将 讲解 每 个 主要 步 又。 
首先 配置 SparkContext， 设 置 应 用 程序 名 称 ， 并 将 executor 内 存 增加 到 2GB : 


# 配置 Spark 

conf = SparkConf().setMaster("local") \ 
.SetAppName("Spam Classifier") \ 
.Set("spark.executor .memory", "2g") 

sc = SparkContext(conf=conf) 


接 下 来 读 取 命令 行 参数 ， 获 取 训 练 数据 文件 的 路 径 。 读 取 这 些 文件 ， 创 建 二 圾 邮 和 人 人 
(spam) 和 非 垃圾 邮件 (ham) RDD: 


spam_file = sys.argv[1] 
ham_file = sys.argv[2] 





Lk 





spam = sc.textFile(spam file) 
ham = sc.textFile(ham file) 


现在 ， 实 例 化 HashingTF 对 象 ， 将 要 提取 的 特征 数量 设置 为 10 000: 


tf = HashingTF(numFeatures=10000) 


将 HashingTF 的 transform() 方法 应 用 于 spam 和 ham 数据 ， 首 先 将 内 容 分 成 单词 令 牌 。 这 
将 从 spam 和 ham RDD 中 提取 出 词 频 向 量 ， 并 将 其 投影 为 新 的 特征 向 量 RDD: 


spam_features = spam.map(lambda email: tf.transform(email. \ 























split("” "))) 
ham_features = ham.map(Lambda email: tf.transform(email. \ 
split("” "))) 


现在 将 RDD 中 的 每 个 特征 向 量 转换 为 LabeledPoint。 因 为 这 是 一 个 二 分 类 器 ， 因 此 用 1 

表示 垃圾 邮件 ， 用 0 表示 非 垃 圾 邮件 。LabetLedPoint 对 象 的 第 二 个 值 将 包含 该 特征 。 将 这 

些 RDD 的 并 集 作 为 训练 数据 集 并 缓存 它 ， 因 为 逻辑 回归 是 一 种 迭代 算法 : 
positive_exampLes = spam_features.map(Lambda features: LabeledPoint(1, features)) 
negative_exampLes = ham_features.map(Lambda features: LabeledPoint(0, features)) 


training = positive examples.union(negative_ examples) 
training.cache() 


现在 使 用 SGD 算法 和 训练 数据 运行 逻辑 回归 : 

model = LogisticRegressionWithSGD.train(training) 
现在 创建 测试 数据 ， 包 括 应 分 类 为 垃圾 邮件 的 文本 内 容 ， 以 及 应 分 类 为 非 垃 圾 邮件 的 文本 
内 容 。 然 后 使 用 训练 模型 来 预测 测试 数据 是 否 被 视 为 垃圾 邮件 。 回 想 之 前 对 LabeledPoints 
的 设置 ，1 表示 垃圾 邮件 ，0 表示 非 垃 圾 邮件 : 

# 创建 测试 数据 ,测试 模型 


positive test = tf.transform("Guaranteed to Lose 20 lbs in 10 days 
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Try FREE!".split(" ")) 
negative_test = tf.transform("Hi, Mom, I'm Learning all about Hadoop 
and Spark!".split(" ")) 


print "Prediction for positive test example: %g" % model.predict(positive_ test) 
print "Prediction for negative test example: %g" % model.predict(negative_ test) 


至 此 ， 就 可 以 将 预测 结果 与 数据 的 分 类 进行 比较 ， 评 估 分 类 器 模型 的 准确 性 ， 或 者 将 该 模 
型 应 用 于 未 标记 的 数据 集 。MLlib 的 分 类 算法 针对 大 型 监督 训练 数据 进行 了 优化 。 因 此 ， 
比 起 少 而 精 ， 更 多 的 数据 通常 会 产生 更 好 的 效果 。 然 而 ， 分 析 数 据 并 应 用 最 合适 的 算法 和 
评估 方法 仍然 很 重要 。 请 参考 官方 的 Spark MLlib 文档 (http://spark.apache.org/docs/latest/ 
ml-guide.html)， 了 解 所 有 支持 的 分 类 算法 和 评估 指标 ， 特 别 要 注意 它们 各 自 支 持 的 API 
(Scala、 Java、 Python)。 














9.1.3 聚 类 

与 协同 过 着 和 分 类 算法 不 同 ， 聚 类 利用 无 监督 学 习 技 术 来 构建 模型 。 聚 类 算法 尝试 将 数据 
集合 组 织 成 类 似 项 目的 分 组 ， 比 如 寻找 具有 相似 特征 或 兴趣 的 客户 群体 ， 或 将 动 植物 按 常 
见 物种 分 组 。 聚 类 的 目标 是 将 数据 分 成 多 个 和 化， 使 每 个 禾 内 的 数据 彼此 之 间 比 与 其 他 徐 中 
的 数据 更 相似 。 
Spark MLlib 提供 了 一 些 流行 的 聚 类 模型 ， 但 其 中 最 简单 也 是 最 流行 的 聚 类 算法 候 怕 还 得 属 
k-means。k-means 算法 需要 将 所 有 对 象 表示 为 一 组 数值 特征 ， 并 事先 指定 想 要 的 目标 禾 数 
(个 禾 )。 

MLlib 的 k-means 聚 类 的 实现 也 从 向 量化 数据 集 开始 ， 将 每 个 对 象 表示 为 n 维 空间 中 的 特 
征 向 量 ， 其 中 用 于 描述 要 聚 类 的 对 象 的 所 有 特征 的 数量 。 算 法 首先 在 该 向 量 空间 随机 选 
择 大 个 点 作为 禾 的 初始 中 心 或 质心 ， 然 后 将 每 个 对 象 分 配给 最 接近 的 质心 ， 使 用 徐 中 所 有 
点 的 坐标 的 平均 值 重 新 计算 质心 点 ， 并 根据 需要 将 对 象 重新 分 配 到 最 近 的 徐 。 分 配对 象 和 
重新 计算 中 心 的 过 程 不 断 重 复 ， 直 到 过 程 收 剑 ， 如 图 9-2 所 示 。 


家 Ge@ 
全 人 @ | @ 


选择 种 子 分 配 文档 重新 计算 /移动 质心 







































































图 9-2: kmeans 聚 类 算法 的 计算 阶段 





注 6:《Hadoop 硬 实战 》 Alex Holmes 著 。 
注 7: 《Spark 快速 大 数据 分 析 》Holden Karau 等 人 著 。 本 书 已 由 人 民 邮 电 出 版 社 出 版 ，http://www.ituring.com. 
cn/book/1558。 
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聚 类 中 最 重要 的 问题 就 是 确定 如 何 量化 要 聚 类 的 对 象 的 相似 度 。 加 权 方 法 可 以 从 TF-IDF 
获得 ， 这 对 于 文本 文档 特别 有 用 ;， 另 一 种 加 权 方法 是 通过 数据 中 的 其 他 自 定义 属性 (使 用 
计算 指标 衡量 的 平均 占 比 ) 的 函数 来 确定 (例如 基于 以 美元 为 单位 的 总 购买 金额 划分 顾 
客 )。 对 于 MLlib 的 k-means 聚 类 的 输入 ， 需 要 指出 对 特征 向 量 使 用 的 加 权 方 法 。 例 如 ， 如 
果 确 定 要 根据 总 购买 金额 、 平 均 购 买 频率 和 每 次 平均 购买 金额 这 三 个 特征 对 所 有 客户 进行 
聚 类 ， 那 么 客户 样本 可 能 如 表 9-1 所 示 。 


表 9-1: 客户 特征 向 量化 
姓名 总 购买 金额 ( 美元 ) 每 月 平均 购买 次 数 每 次 平均 购买 金额 ”特征 向 量 























Jane 825 5 115 [825,5,115] 
Bob 201 1 45 [201,1,45] 
Emma 649 2 65 [649,2,65] 




















有 多 个 特征 时 一 定 要 注意 ， 维 度 值 是 以 不 同 单位 表示 的 ， 或 者 尚未 进行 归 一 化 。 如 果 使 用 
简单 的 、 基 于 距离 的 指标 来 确定 这 些 向 量 之 间 的 相似 性 ， 总 购买 金额 将 主导 结果 。 通 过 给 
不 同 的 维度 加 权 ， 可 以 解决 这 个 问题 。” 

示例 : 一 个 k-means 聚 类 

在 这 个 例子 中 ， 我 们 将 应 用 k-means 聚 类 算法 来 确定 截至 今年 美国 哪些 区 域 发 生地 震 的 次 
数 最 多 。" 这 些 信息 可 以 在 GitHub 仓库 的 /data 目录 中 的 earthquakes.csv 文件 中 找到 。 此 
CSYV 文件 的 列 如 下 所 示 : 


。 time 

。 latitude 

。 longitude 
。 depth 


。 magnitude 

















。 ImagnitudeType 
。 nst 

” gap 

。 dmin 

。 rms 

。 net 

。 jd 

。 updated 

。 place 


从 这 些 记 录 中 提取 纬度 〈latitude) 和 经 度 (longitude)， 并 用 其 训练 模型 。 在 这 个 迭代 过 程 
中 ， 我 们 将 尝试 生成 6 个 答 。 完 整 的 程序 可 以 使 用 以 下 命令 运行 : 

















注 8: 《Mahout 实战 》， Sean Owen、Robin Anil、Ted Dunning、Ellen Friedman 合 著 。 
注 9: 参见 “USGS Earthquakes Hazard Program” (http://earthquake.usgs.gov/earthquakes/feed/v1.0/csv.php)。 
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$ $SPARK_HOME/bin/spark-submit \ 


/home/hadoop/hadoop-fundamentals/mllib/clustering/earthquakes_clustering.py \ 


/home/hadoop/hadoop-fundamentals/data/earthquakes.csv \ 
6 > clusters.txt 





首先 ， 配 置 Spark 并 创建 SparkContext: 


# 配置 Spark 

conf = SparkConf().setMaster("local") \ 
.SetAppName("Earthquake Clustering") \ 
.Set("spark.executor .memory", "2g") 

sc = SparkContext(conf=conf) 


NumPy 数组 : 
# 创建 用 于 训练 的 (Lat，Long) RDD 向 量 


earthquakes_file = sys.argv[1] 
training = sc.textFile(earthquakes_file).map(parse_vector) 


使 用 第 二 个 参数 设置 个 徐 ， 在 本 示例 中 为 6: 


k = int(sys.argv[2]) 








接 下 来 ， 从 地 震 数据 文件 创建 训练 RDD， 人 解析 每 一 行 的 纬度 和 经 度 ， 并 将 其 转化 为 一 个 


调用 KMeans.train()， 将 训练 集 和 (设置 为 6) 传递 给 它 。 这 将 生成 模型 ,我们 也 可 以 访 


问 复 的 中 心 : 


# 基于 训练 数据 和 k-cLusters 训 练 模型 
modeL = KMeans.train(training, k) 








print "Earthquake cluster centers: " + str(model.clusterCenters) 


sc.stop() 


如 果 检 查 输出 的 clusters.txt 文件 ， 就 会 看 到 类 似 如 下 的 输出 : 


Earthquake cluster centers: [array([ 38.63343185, -119.22434212])， 
array([ 13.9684592 ，142.97677391] ) ， 

array([ 61.00245376, -152.27632577])， 

array([ 35.74366346, 27.33590769])， 

array([ 10.8458037, -158.656725 ]), 

array([ 23.48432962, -82.3864285 ])] 





上 上 


现在 ， 就 可 以 根据 训练 数据 绘制 结果 输出 ， 对 结果 执行 “眼球 ”评估 ， 并 通过 优化 徐 数 
(kt) 和 迁 代 次 数 来 调整 徐 中 心 了 。 为 了 获取 更 精确 的 评估 指标 ， 还 可 以 计算 “ 集 内 平方 误 


差 的 总 和 ”(Within Set Sum of Squared Errors) ， 它 衡量 每 个 中 心 点 周围 禾 点 的 紧凑 度 : 





def error(point): 
Center = model.centers[model.predict(point)] 
return sqrt(sum([x**2 for x in (point - center)])) 


WSSSE = training.map(lambda point: error(point)).reduce(lambda x, y: x + y) 


print("Within Set Sum of Squared Error = " + str(WSSSE)) 
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9.2 小 结 


本 章 实现 了 一 个 基于 用 户 的 简单 推荐 系统 ， 使 用 实现 逻辑 回归 的 二 分 类 器 对 电子 邮件 进行 
了 分 类 ， 使 用 k-means 聚 类 算法 对 文档 集合 进行 了 聚 类 ， 并 介绍 了 一 点 输入 数据 的 向 量 表 
示 。 但 是 ， 这 只 是 MLlib 的 预测 分 析 能 力 的 皮毛 。 

除了 其 他 算法 和 数据 准备 工具 ，MLlib 还 提供 了 评估 算法 的 质量 和 性 能 的 工具 。 和 希望 这 
个 简短 的 介绍 展示 了 MLlib 将 强大 的 统计 学 习 技术 应 用 于 大 型 数据 集 的 潜力 。 由 于 Spark 
MLlib 正 逐 步 发 展 成 一 个 更 广泛 的 分 布 式 机 器 学 习 框 架 ， 因 此 我 们 也 鼓励 你 去 深入 了 解 它 
的 统计 和 机 器 学 习 能 力 以 及 未 来 发 展 情况 。 数 据 类 型 、 算 法 和 实用 程序 都 可 以 在 官方 的 
Spark MLlib 指南 (http://spark.apache.org/docs/latest/mllib-guide.html) 中 找到 。 我 们 还 推 
荐 你 阅读 Sandy Ryza、Uri Laserson、Sean Owen 和 Josh Wills 合理 的 《Spark 高 级 数据 分 
析 》"”"， 这 是 一 本 以 示例 驱动 的 优秀 图 书 。 





















































注 10: 本 书 已 由 人 民 邮 电 出 版 社 出 版 ，http://www.ituring.com.cn/book/1668。 
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总 结 ， 分布 式 数据 科学 实战 





在 本 书 中 ， 我 们 领略 了 Hadoop 生态 系统 的 具体 组 成 部 分 。 第 一 部 分 讨论 了 如 何 与 集群 进 
行 交互 以 及 如 何 使 用 集群 。 如 前 所 述 ，Hadoop 是 一 种 分 布 式 计算 的 操作 系统 ， 和 本 地 计 
算 机 上 提供 文件 系统 和 进程 管理 的 操作 系统 一 样 ，Hadoop 通过 HDFS 以 及 YARN 形式 的 
资源 和 调度 框架 提供 分 布 式 数据 存储 和 访问 。HDFS 和 YARN 一 起 构成 了 一 种 在 极 大 数据 
集 上 进行 分 布 式 分 析 的 机 制 。 


写 分 布 式 作 业 的 原始 方法 是 使 用 MapReduce 框架 ， 它 让 你 能 指定 mapper 和 reducer 任 
务 。 将 这 些 任务 链接 在 一 起 ， 可 以 进行 更 庞大 的 计算 。 由 于 Python 是 数据 科学 最 流行 
的 工具 之 一 ， 所 以 本 书 专门 探讨 了 如 何 通过 Hadoop Streaming 执行 使 用 Python 脚本 的 
MapReduce 作业 。 在 第 一 部 分 中 ， 还 探索 了 一 种 更 纯粹 的 解决 方案 : 使 用 Spark 的 Python 
API 在 使 用 了 YARN 的 Hadoop 集群 中 执行 Spark 作业 。 最 后 ， 介 绍 了 在 集群 上 常用 的 分 
布 式 分 析 和 设计 模式 ， 结 束 了 对 低级 工具 的 讨论 。 


第 二 部 分 从 低级 编程 细节 完全 转移 到 了 数据 挖掘 、 数 据 采集 、 数 据 流 和 机 器 学 习 所 用 的 高 
级 工具 上 。 这 一 部 分 主要 针对 通过 Hadoop 的 各 种 现 有 工具 进行 分 布 式 数据 分 析 的 日 常情 
形 ， 以 及 如 何 根据 大 数据 流水 线 (数据 采集 、 数 据 整 理 /staging、 计 算 和 分 析 、 工 作 流 管 
理 ) 组 织 这 些 工具 。 

你 可 能 会 有 一 个 疑问 : 如 何 将 Hadoop 和 Spark 中 的 所 有 这 些 工 具 、 组 件 组 合 在 一 起 ? 

在 第 1 章 中 ， 我 们 讨论 了 为 什么 大 数据 变 得 重要 了 主要 由 于 数据 产品 (从 数据 中 获取 
价值 ， 并 通过 应 用 预测 或 模式 识别 来 生成 新 数据 的 应 用 程序 ) 的 兴起 。 数 据 产 品 必须 具有 
自 适应 性 和 广泛 适用 性 (可 通用 ) ， 因 此 ， 机 器 学 习 和 强化 技术 在 成 功 部 署 数据 产品 方面 
越 来 越 突 出 。 数 据 产品 的 自 适应 行为 要 求 它 们 不 能 是 静态 的 ， 而 是 要 不 断 学 习 ， 可 通用 性 
需要 大 量 的 数据 参考 点 来 拟 合 模型 。 因 此 ， 数 据 产 品 需 要 分 布 式 计 算 来 处 理 多 样 的 、 快 速 
的 数据 一 一 这 也 正 是 现代 机 器 学 习 的 特点 。 
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数据 产品 是 构建 的 消费 品 (不 一 定 完全 是 软件 )， 它 从 数据 中 获取 价值 并 生 
成 新 数据 。 要 实现 该 定义 ， 必 然 需要 应 用 机 器 学 习 技 术 。 数 据 驱动 的 应 用 程 
序 只 是 使 用 数据 的 应 用 程序 (包括 每 个 软件 产品 )， 例 如 博客 、 网 上 银行 、 
电子 商务 等 。 即 使 数据 驱动 的 应 用 程序 从 数据 中 获取 了 价值 ， 它 也 不 一 定 会 
生成 新 的 数据 。 














本 章 将 详细 介绍 如 何 使 用 本 书 中 讨论 过 的 所 有 工具 来 构建 数据 产品 ， 并 在 此 过 程 中 ， 回 答 
如 何 将 分 布 式 计算 的 低级 操作 和 高 级 生态 系统 工具 拟 合 在 一 起 。 即 便 本 书 只 是 Hadoop 和 
分 布 式 计算 的 一 个 入门 介绍 ， 但 我 们 也 想 在 总 结 时 提供 一 些 建议 ， 看 看 接 下 来 能 做 什么 。 
希望 通过 将 整个 数据 产品 和 机 器 学 习 生 命 周期 进行 语 境 化 ， 你 能 更 轻松 地 识别 和 了 解 对 工 
作 流 至 关 重 要 的 工具 和 技术 。 


10.1 数据 产品 生命 周期 


构建 数据 产品 需要 建立 和 维护 活动 的 数据 工程 流水 线 。 流 水 线 包 括 采 集 、 整 理 、 仓 储 、 计 算 
和 探索 性 分 析 等 多 个 步骤 ， 这 些 步 又 一 同 构 成 了 数据 工作 流 管 理 系 统 。 它 的 主要 目标 是 建立 
和 实施 拟 合 的 (经 过 训练 的 ) 模型 ， 其 核心 过 程 包括 提取 、 转 换 和 加 载 (ETL) 过 程 一 一 从 
应 用 程序 上 下 文中 提取 数据 ， 将 其 加 载 到 Hadoop 中 ， 在 Hadoop 集群 中 处 理 数 据 ， 然 后 将 
数据 ETL 回应 用 程序 。 如 图 10-1 所 示 ， 可 以 将 这 个 简单 的 流程 图 看 作 是 一 个 活动 的 或 者 常 
规 的 生命 周期 。 在 这 个 周期 内 ， 通 过 新 的 数据 和 交互 ， 为 用 户 调整 和 使 用 机 器 学 习 模 型 。 
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如 有 果 想 充分 运用 机 器 学 习 算法 ， 数 据 产 品 生 命 周 期 就 需要 使 用 大 数据 分 析 和 Hadoop。 拥 有 
大 量 用 户 的 应 用 程序 必然 将 产生 大 量 数据 。 尽 管 通过 128GB 内 存 和 多 个 内 核 的 强大 服务 器 
进行 有 效 的 抽样 和 分 析 后 ， 这 些 数据 可 以 被 处 理 ， 但 数据 的 多 样 和 高 速 才 是 需要 Hadoop 
和 基于 集群 的 方法 的 灵活 性 的 主要 原因 。 


灵活 性 确实 是 基于 集群 的 系统 的 关键 。Web 日 志 记 录 (点 击 流 式 数据 )、 用 户 交 互 和 流 
式 数 据 集 (例如 传感器 数据 ) 形式 的 输入 数据 源源 不 断 地 涌 入 应 用 程序 。 这 些 数据 源 被 
写 和 各 处 ， 比 如 日 志文 件 、 NoSQL 数据 库 ， 以 及 Web API 后 端的 关系 数据 库 。 此 外 ， 
来 自 网 络 怜 取 、 数 据 服务 和 API、 调 查 及 其 他 业务 来 源 的 数据 等 信息 也 不 断 被 生成 。 这 
些 额 外 的 数据 必须 与 现 有 应 用 程序 数据 被 一 道 分 析 ， 从 而 确定 能 改进 数据 产品 模型 的 特征 
是 否 存 在 。 

因此 ， 数 据 产 品 生命 周期 通常 围绕 一 个 或 多 个 中 心 数据 存储 。 数 据 存储 极其 灵活 ， 没 有 约 
束 (不 像 关系 数据 库 中 存在 约束 )， 但 持久 性 强 。 这 样 的 中 心 数据 存储 是 WORM 系统 ， 即 
“ 写 一 次 ， 读 多 次 ”， 是 向 下 游 分 析 提 供 可 靠 数 据 的 关键 所 在 ， 支 持 历史 分 析 和 可 重复 的 
ETL 生成 (这 对 科学 至 关 重要 )。WORM 存储 系统 对 数据 科学 非常 重要 ， 它 们 也 因此 收获 
了 一 个 新 名 字 一 一 数据 湖泊 。 


10.1.1 数据 湖泊 

传统 上 ， 我 们 会 使 用 数据 仓库 模型 来 执行 业务 环境 中 的 常规 聚合 分 析 。 数 据 仓库 是 关系 数 
据 库 的 扩展 ， 通 常 将 数据 规 一 化 为 星 型 模式 一 一 将 多 个 维 表 连接 到 一 个 中 心事 实 表 (所 以 
关系 图 看 起 来 像 星 型) 的 模式 。 事 务 通常 发 生 在 维 表 上 ， 它 们 的 解 耦 使 组 织 的 各 个 方面 在 
读 写 上 有 了 一 些 性 能 优势 。ETL 过 程 通 过 一 个 大 连接 构建 “数据 ( 超 ) 立方 ”来 加 载 事实 
表 ， 我 们 可 以 在 数据 立方 上 应 用 枢纽 分 析 (pivot) 和 其 他 分 析 方 法 。 


为 了 有 效 利 用 传统 的 数据 仓库 ， 必 须 先 设计 一 个 清晰 的 模式 ， 经 历 元 长 周期 的 ETL 过 程 ， 
完成 数据 库 管理 、 数 据 转换 和 加 载 后 ， 才 可 以 分 析 数 据 。 不 幸 的 是 ， 当 你 将 数据 产品 视 
为 需要 新 数据 和 新 数据 源 的 、 有 生命 的 、 活 动 的 引擎 时 ， 这 种 传统 的 数据 分 析 模 型 可 能 

既 费 时 又 有 限制 。 对 应 用 程序 的 简单 改动 (例如 新 的 历史 数据 源 ， 或 新 的 日 志 记 录 和 提 
取 技 术 ) 就 可 能 改变 数据 立方 的 结构 ， 需 要 重新 设计 星 型 模式 的 范式 。 这 种 结构 调整 不 
仅 费时 费力 ， 而 且 还 迫使 我 们 作出 一 个 业务 决策 : 是 否 值得 为 这 些 数据 增加 机 器 ， 来 处 理 
新 的 数据 量 ? 


作为 数据 科学 家 ， 我 们 都 知道 所 有 数据 至 少 有 潜在 价值 ， 但 却 很 难 回 答 数 据 价值 及 其 相对 
成 本 效益 的 问题 。 因 此 ， 许 多 公司 不 仅 在 数据 仓库 上 有 所 投入 ， 而 且 还 开发 数据 湖泊 作为 
主要 的 数据 收集 和 同步 策略 。 


数据 湖泊 支持 从 各 种 源 (结构 化 和 非 结 构 化 的 ) 中 流入 未 处 理 的 原始 数据 ， 它 将 整个 数据 
集合 存储 在 一 起 ， 无 须 太 多 的 组 织 ， 如 图 10-2 所 示 。 结 构 化 数据 可 以 从 关系 数据 库 、 结 构 
化 文件 (如 XML 或 JSON) 和 符号 分 隔 文件 (如 日 志文 件 ) 中 获取 ， 并 且 通 常 以 基于 文本 
的 格式 或 某 种 类 型 的 序列 化 二 进 制 格式 (如 SequenceFiles、Avro 或 Parquet) 加 载 到 系统 。 
半 结 构 化 和 非 结 构 化 数据 包括 传感器 数据 、 二 进 制 数据 〈 如 图 像 ) 和 不 是 面向 记录 而 是 面 
向 文档 的 文本 文件 〈 如 电子 邮件 )。 数 据 湖泊 模式 允许 任何 类 型 的 数据 自由 流入 存储 ， 然 
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后 通过 在 处 理 时 施加 所 需 模式 的 ETL 过 程 流出 。 根 据 分 析 需 求 进行 提取 和 转换 后 ， 数 据 被 
加 载 到 一 个 或 多 个 数据 仓库 进行 例 行 分 析 或 紧急 分 析 。 数 据 湖 泊 模 式 提 供 了 在 线 访 问 整 套 
原始 的 源 格式 数据 的 功能 ， 并 将 模式 定义 延迟 到 处 理 时 ， 让 公司 能 在 需求 变化 时 敏捷 地 执 
行 新 的 处 理 和 分 析 。 
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10-2: 结构 化 和 非 结 构 化 的 数据 流入 数据 湖泊 ， 后 者 使 用 ETL 过 程 查询 ， 产 生 一 个 可 以 分 析 的 数 
据 仓 库 


尽管 本 书 专 广 于 HDFS， 但 还 有 其 他 许多 分 布 式 数 据 存储 解决 方案 ， 比 如 GlusterFS、EMC 
的 Isilon OneFS 和 Amazon 的 Simple Storage Service (S3) ， 等 等 。 然 而 ，HDFS 是 Hadoop 
的 默认 文件 系统 ， 也 是 构建 数据 湖泊 非常 有 效 的 方式 。HDFS 将 数据 分 发 到 许多 机 器 ， 支 
持 用 许多 小 容量 的 硬盘 存储 数据 ， 同 时 ， 使 数据 可 用 于 分 布 式 框架 中 的 计算 ， 而 不 会 产生 
存储 区 域 网 络 (storage area network，SAN) 的 网 络 流 量 。 此 外 ，HDFS 会 复制 数据 块 ， 提 
供 持久 性 和 容错 性 ， 确 保 数据 不 会 丢失 。NameNode 以 分 层 文件 系统 的 形式 组 织 数 据 命 名 
空间 ， 而 不 设计 每 个 字段 数据 的 模式 。 

与 其 使 用 负载 过 重 又 容量 有 限 的 单个 主 数据 仓库 ， 还 不 如 将 数据 存储 在 HDFS 数据 湖泊 
中 ， 通 过 MapReduce 或 Spark 作业 进行 灵活 分 析 ， 然 后 被 提取 并 加 载 到 目标 系统 中 ， 例 如 
需要 特定 类 型 分 析 的 业务 部 门 的 企业 数据 仓库 。 此 外 ,通常 可 以 将 在 磁带 上 存档 的 、 无 法 
分 析 的 旧历 史 数 据 转 移 到 Hadoop 上 ， 进 行 探索 性 分 析 。 如 此 看 来 ，Hadoop 可 以 减轻 传统 
数据 仓库 的 沉重 维护 负担 、 突 破 后 者 在 可 扩展 性 上 的 限制 ， 甚 至 补充 了 现 有 的 数据 仓库 架 
构 ， 如 图 10-3 所 示 。 






















































































10-3: 使 用 Hadoop 的 混合 数据 仓库 架构 
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10.1.2 ”数据 采集 


深入 了 解数 据 产 品 生 命 周 期 的 中 心 对 象 一 数据 湖 匠 之后， 就 可 以 将 注意 力 转 移 到 数据 采 
集 和 数据 仓储 ， 以 及 数据 科学 家 通常 如 何 看 待 这 些 流程 了 。 首 先 从 数据 采集 开始 。 


一 般 来 说 ， 大 多 数 数据 采集 从 应 用 程序 上 下 文 获取 数据 ， 也 就 是 和 用 户 交 互 的 软件 产品 
的 业务 单元 ， 或 者 实时 收集 信息 的 逻辑 单元 。 例 如 ， 一 个 规模 可 观 的 电子 商务 平台 可 能 
有 一 个 只 处 理 客户 评论 的 软件 应 用 程序 ， 和 一 个 只 收集 用 于 安全 和 日 志 的 网 络 流量 信息 
的 单元 。 这 两 个 数据 源 对 于 异常 检测 (欺诈) 或 推荐 系统 等 数据 产品 非常 有 价值 ， 但 必 
须 分 别 采 集 进入 数据 湖泊 。 本 市 将 介绍 Sqoop 和 Flume 这 两 种 工具 ， 它 们 都 支持 这 两 种 
上 下 文采 集 。 

Sqoop 可 以 利用 JDBC (Java database connector) 库 连 接 到 任何 关系 数据 库 系 统 ， 并 将 其 导 
出 到 HDFS。 关 系数 据 库 几 乎 是 目前 所 有 Web 应 用 程序 和 串 行 〈 非 分 布 式 ) 分 析 的 后 端 服 
务 器 。 由 于 关系 数据 库 是 小 规模 分 析 的 着 力 点 ， 在 Web 应 用 程序 中 无 处 不 在 ， 因 此 Sqoop 
是 将 数据 从 大 多 数 大 型 数据 源 提取 到 HDFS 中 的 重要 工具 。 此 外 ， 由 于 Sqoop 从 关系 上 下 
文中 提取 数据 ， 因 此 只 要 稍 作 整理 ， 确 保 主 键 在 数据 库 之 间 保 持 一 致 ，Hive 和 SparkSQL 
几乎 可 以 马上 使 用 从 这 些 数 据 源 采集 的 数据 。 在 我 们 的 示例 中 ，Sqoop 是 提取 存储 在 关系 
数据 库 中 的 客户 评价 数据 的 理想 工具 。 


另 一 方面 ，Flume 是 用 于 采集 日 志 记 录 的 工具 ， 但 也 可 以 从 任何 HTTP 源 中 采集 。Sqoop 
用 于 结构 化 数据 ， 而 Flume 主要 用 于 非 结 构 化 数据 ， 例 如 包含 网 络 流 量 数据 的 日 志 。 日志 
记录 一 般 被 认为 是 半 结 构 化 的 ， 因 为 它们 是 需要 解析 的 文本 ， 但 通常 每 一 行 都 拥有 相同 的 
标准 格式 。Flume 还 可 以 从 Web 请 求 中 采集 HTML、XML、CSV 或 JSON 数据 ， 因 此 能 
行 之 有 效 地 处 理 特定 的 半 结 构 化 数据 和 非 结 构 化 数据 的 包装 数据 ， 如 评论 、 评 价 或 其 他 文 
本 数据 。 因 为 Flume 比 Sqoop 更 通用 ， 因 此 它 不 一 定 与 下 游 数 据 仓储 产品 保持 一 致 ， 并且 
一 般 要 求 采集 过 程 和 分 析 之 间 有 ETL 机 制 。 


本 书 没 有 讨论 消息 队列 服务 。 例 如 ，Kafka 是 一 种 分 布 式 队列 系统 ， 可 在 现实 世界 、 数 据 
系统 中 的 应 用 程序 、 数 据 湖 泊 三 者 之 间 创 建 数 据 边界 。 请 求 数据 可 以 放 在 Kafka 队列 中 ， 
然后 按 需 采集 ， 而 无 须 用 户 向 应 用 程序 发 送 请 求 数据 ， 然 后 采集 到 Hadoop 中 。 消 息 队 列 
使 得 数据 采集 过 程 变 得 更 加 实时 ， 或 者 至 少 变 成 了 一 次 处 理 一 小 片 ， 而 不 是 像 Sqoop 那样 
进行 大 批量 作业 。 

然而 ， 为 了 获取 实时 数据 源 ， 还 需要 其 他 工具 来 处 理 流 式 数 据 。 流 式 数 据 是 指 在 线 不 断 
进入 系统 的 无 界 的 、 可 能 无 序 的 数据 。Twitter 的 Storm (现在 的 Heron)、MillWheel 和 
Timely 等 工具 支持 分 布 式 的 、 容 错 的 实时 数据 集 处 理 。 这 些 工 具 可 以 在 YARN 上 运行 ， 
并 在 处 理 结束 时 将 HDFS 作为 存储 工具 。 与 之 类 似 ，Spark Streaming 提供 了 流 式 数 据 集 
的 微 批 次 分 析 ， 人 允许 以 固定 的 间隔 〈 例 如 每 秒 ) 将 记录 收集 成 一 个 批 次 ， 并 一 次 性 分 析 
或 使 用 它们 。 
许多 现代 分 析 架 构 将 这 些 采 集 和 处 理工 具 组 合 ， 使 其 同时 支持 批 处 理 和 流 式 任务 ， 这 也 被 
称 为 lambda 架构 ， 如 图 10-4 所 示 。 
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10-4: lambda 架构 


当 你 将 这 些 工 具 作 为 一 个 整体 考虑 时 ， 可 以 清楚 地 看 到 ， 从 直接 将 数据 馈 入 数据 仓储 以 进 
行 分 析 的 大 规模 批 处 理 ， 到 需要 ETL 和 处 理 才 能 进行 大 规模 分 析 的 实时 流 中 有 一 种 连续 
性 。 至 于 具体 采用 哪 种 处 理 方式 ， 主 要 由 数据 的 具体 速度 和 及 时 性 (立即 或 在 特定 时 间 限 
制 内 完成 分 析 ) 或 完整 性 (近似 与 精确 ) 共同 决定 。 


10.1.3 ”计算 数据 存储 


随 着 我 们 不 断 接近 数据 产品 生命 周期 中 更 正式 的 仓储 和 分 析 阶 段 ， 分 布 式 存储 的 需求 被 再 
一 次 唤醒 。 正 如 之 前 讨论 的 ， 通 过 将 Hadoop 作为 数据 湖泊 来 存储 未 处 理 的 原始 数据 ， 我 
们 可 以 获得 相当 灵活 、 敏 捷 的 分 析 能 力 。 然 而 ， 在 很 多 使 用 场景 中 ， 结 构 和 顺序 也 是 必需 
的 ， 在 数据 仓储 中 尤其 如 此 一 一 数据 希望 驻 留 在 共享 存储 库 中 ， 维 度 模式 为 分 析 任务 提供 
更 简单 、 经 过 优化 的 查询 。 对 于 这 些 类 型 的 应 用 程序 ， 仅 仅 使 用 HDFS 的 文件 系统 接口 与 
作为 文件 集合 的 数据 进行 交互 是 不 够 的 ;我 们 需要 一 个 更 高 层次 的 接口 ， 可 以 原生 地 理解 
SQL 的 结构 化 表 语 义 。 

1. 关系 方法 : Hive 

在 本 书 中 ， 我 们 提出 Hive 是 Hadoop 中 执行 数据 仓储 任务 的 主要 方法 。Hive 项 目 包 括 许多 
组 件 ， 比 如 Hive Metastore、Hive 驱动 程序 和 执行 引擎 、Hive Metastore 服务 和 HCatalog。 
其 中 ，Hive Metastore 作为 HDFS 之 上 的 存储 管理 器 ， 存 储 元 数据 (数据 库 / 表 实体 、 列 
名 称 、 类 型 等 ) ，Hive 驱动 程序 和 执行 引擎 将 SQL 查询 编译 成 MapReduce 或 Spark 作业 ， 
Hive Metastore 服务 和 HCatalog 使 其 他 Hadoop 生态 系统 工具 能 与 Hive Metastore 进行 交 
互 。 还 有 许多 其 他 分 布 式 的 SQL 或 SQL-on-Hadoop 技术 来 不 及 讨论 了 ， 它 们 是 Impala、 
Presto、Hive on Tez， 等 等 。 上 述 所 有 组 件 其 实 可 以 直接 与 Hive Metastore 交互 ， 或 通过 
HCatalog 与 它 交 互 。 解 决 方案 的 选择 应 由 数据 仓储 和 性 能 要 求 决 定 ， 但 Hive 通常 是 耗 时 
长 、 需 要 容错 的 查询 的 好 选择 。 
在 HDFS 和 Hive 中 存储 数据 时 ， 一 定 要 考虑 如 何以 有 意义 上 且 有 效 的 方式 对 数据 进行 分 区 。 
要 存储 到 Hive 的 话 ， 确 定 分 区 策略 时 应 该 考虑 在 查询 数据 集 时 最 常 应 用 的 谓词 。 例 如 ， 
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如 果 要 分 析 WHERE year = 2015 或 WHERE updated > 2016-03-15 形式 的 WHERE 子 句 ， 很 明 
显 ， 按 日 期 过 滤 记 录 将 是 一 个 重要 的 访问 模式 ， 因 此 可 以 按 天 (例如 2016-03-01) 将 数据 
分 区 。 这 让 Hive 能 只 读 取 所 需 的 特定 分 区 ， 从 而 减少 WO 量 并 显著 缩短 查询 时 间 。， 


不 幸 的 是 ， 大 多 数 SQL 查询 都 非常 复杂 ， 针 对 分 析 使 用 的 各 种 谓词 可 能 会 导致 大 量 不 同 
的 分 区 。 这 要 么 导致 数据 极度 碎片 化 ， 要 么 会 降低 数据 存储 的 灵活 性 。 除 了 对 分 布 式 数据 
执行 复杂 查询 之 外 ， 还 有 第 二 个 选择 一 一 在 主要 转换 和 过 滤 之 后 ， 使 用 Sqoop 将 数据 从 
Hadoop 采集 出 来 ， 然 后 存 和 人 关系 数据 库 中 ， 以 便 能 更 直接 地 应 用 正常 报告 或 Tableau 可 视 
化 。 因 此 ， 了 解数 据 如 何 从 许多 较 小 的 系统 ， 流 入 较 大 的 数据 湖泊 系统 ， 再 流 回 到 较 小 的 
系统 ， 是 数据 仓储 的 关键 所 在 。 
2. NoSQL 方 法 : HBase 

这 里 讨论 的 数据 仓储 的 非 关 系 选项 是 HBase， 一 个 列 式 的 NoSQL 数据 库 。 列 式 数 据 库 是 
OLAP (online analytical processing， 联 机 分 析 处 理 ) 类 数据 库 访问 的 主力 军 。 这 类 访问 通 
常 扫描 大 多 数 或 所 有 数据 库 表 ， 但 只 选择 可 用 列 的 一 部 分 。 思 考 这 样 一 个 问题 : 每 个 地 区 
每 周 有 多 少 订单 ? 这 个 订单 表 查 询 需 要 两 列 ， 分 别 是 地 区 和 订单 日 期 。 列 式 数 据 库 只 将 这 
两 列 以 紧凑 、 压 缩 的 格式 流入 计算 ， 而 不 采取 每 张 表 都 逐 行 扫 描 (包括 不 需要 的 连接 和 
列 ) 的 面向 行 的 方法 。 因 此 ， 列 式 (也 被 称 为 以 顶点 为 中 心 ) 计算 为 这 些 类 型 的 聚合 带 来 
了 巨大 的 性 能 提升 。 


在 考虑 使 用 哪 种 非 关 系 工 具 和 NoSQL 数据 库 时 ， 通 常会 有 特定 的 要 求 帮 你 作出 选择 。 例 
如 ， 如 果 查 询 需 要 快速 查找 一 个 值 ， 则 应 考虑 键 / 值 存 储 ， 如 果 数 据 访问 需求 涉及 稀 玻 数 
据 的 行 级 写 入 ， 并 且 分 析 主 要 关注 察 合 ， 那 么 HBase 是 很 好 的 备 选 工具 ， 如 果 数 据 是 实体 
(顶点 ) 之 间 有 许多 关系 ( 边 ) 的 图 ， 则 应 考虑 Titan 这 样 的 图 数据 库 ， 如 果 你 正在 使 用 
传感器 或 时 间 序 列 数 据 ， 那 么 应 该 考虑 InfluxDB 这 样 的 原生 了 解 时 间 序 列 数据 的 数据 库 。 
NoSQL 数据 库 的 数量 令 人 惊讶 ， 这 是 因为 它们 通常 都 只 针对 特定 的 使 用 场景 进行 优化 。 在 
大 多 数 情况 下 ， 这 些 数据 存储 后 端 是 更 大 、 更 复杂 的 分 布 式 存储 和 计算 架构 的 一 部 分 。 


10.2 机 器 学 习 生 命 周期 


第 5 童 探索 了 分 解数 据 集 的 抽样 技术 ， 将 样本 放 在 单个 计算 机 上 ， 然 后 使 用 Scikit-Learn 
来 生成 模型 。 可 以 序列 化 模型 并 通过 分 布 式 方法 使 用 整个 数据 集 对 模型 进行 交 又 验证 。 
一 般 来 说 ， 这 是 一 种 非常 有 效 的 技术 ， 被 称 为 “最 后 一 英里 计算 "。 它 使 用 MapReduce 
或 Spark 过 滤 、 聚 合 或 汇总 数据 ， 使 数据 可 以 加 载 到 单个 计算 机 的 内 存 ( 例 如 64GB ) 
中 ， 并 能 通过 更 容易 获得 的 技术 计算 。 此 外 ， 这 也 是 执行 没有 分 布 式 实现 的 计算 或 分 析 
的 唯一 方法 。 

第 9 章 探讨 了 如 何 使 用 SparkML 库 在 分 布 式 环境 中 执行 分 类 、 回 归 和 聚 类 。 过 去 ， 大 数 
据 机 器 学 习 依 赖 于 Mahout 库 和 图 分 析 库 (例如 Pregel) ; 而 现在 ，SparkML 和 GraphX 库 
被 广泛 应 用 于 分 析 上 下 文中 。 在 一 定 程度 上 ， 将 强大 工具 转换 为 分 布 式 形式 的 趋势 已 经 出 
现 ; 但 在 其 他 情况 下 ， 分布 式 算法 的 出 现 比 单 进程 版 本 还 要 早 。 


















































































































































































































































注 1:《Hadoop 应 用 架构 》Mark Grover 等 人 著 。 本 书 已 由 人 民 邮 电 出 版 社 出 版 ，http://www.ituring.com.cn/ 
book/1710。 一 一 编者 注 
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鉴于 之 前 已 经 定义 了 数据 产品 ， 所 以 希望 大 家 明确 一 点 : 本 书 中 讨论 的 所 有 数据 管理 技术 
都 是 趋向 机 器 学 习 的 ， 以 特征 工程 的 形式 为 主 。 特 征 工 程 是 分 析 创 建 决策 空间 的 过 程 ， 也 
就 是 为 了 创建 一 个 有 效 的 模型 ， 需 要 什么 维度 〈 列 或 字段 ) ? ”其实 这 个 过 程 是 数据 科学 家 
的 主要 工作 ， 数 据 产 品 的 最 终 目标 是 如 何 使 用 前 面 章 节 讨 论 的 工具 ， 而 不 是 如 何 设计 或 开 
发 它们 。 

因此 ， 了 解 清 楚 机 器 学 习 算 法 在 期 望 什么 ， 可 能 比 直接 讨论 机 器 学 习 更 有 用 。 


本 书 主要 帮助 数据 科学 家 培养 在 大 型 数据 集 上 进行 机 器 学 习 特 征 工程 的 能 
力 。 几 乎 所 有 机 器 学 习 算 法 都 在 单个 实例 表 上 运行 ， 每 一 行 都 是 学 习 的 实 
例 ， 每 一 列 都 是 决策 空间 中 的 一 个 维度 。 这 对 在 数据 产品 生命 周期 中 如 何 选 
择 工具 有 很 大 影响 。 






























































在 关系 上 下 文中 ， 这 意味 着 数据 集 必 须 在 分 析 之 前 去 规 一 化 〈 例 如 将 多 个 表 连 接 成 一 个 
表 )。 这 可 能 会 给 系统 带 来 元 余数 据 ， 但 这 正 是 算法 所 需要 的 。 几 乎 所 有 机 器 学 习 系统 都 
是 迭代 的 ， 这 意味 着 系统 会 多 次 处 理 数 据 。 在 大 数据 环境 中 ， 这 将 导致 大 量 开 销 ， 因 此 我 
们 会 使 用 Spark 替代 MapReduce 来 进行 机 器 学 习 Spark 将 数据 保存 在 内 存 中 ， 加 快 每 
次 处 理 的 速度 。 


去 规 一 化 、 元 余 和 和 迭代 算法 也 对 数据 生命 周期 有 影响 。 如 果 我 们 经 常生 成 单个 表 ， 那 么 就 
必须 问 问 自 己 ， 为 什么 最 初 要 从 数据 湖泊 中 规 一 化 数据 。 难 道 就 不 能 简单 地 将 非 规 一 化 数 
据 直 接 发 送 到 机 器 学 习 模 型 中 吗 ? 在 实践 中 ，Hadoop 中 的 模式 设计 高 度 依赖 于 具体 的 分 
析 过 程 或 机 器 学 习 模 型 的 输入 需求 。 在 许多 情况 下 ， 可 能 有 多 个 差异 很 小 的 数据 模式 需 
求 ， 例 如 所 需 的 分 区 或 分 桶 模式 。 虽 然 使 用 不 同 的 物理 结构 存储 相同 的 数据 集 通常 在 传统 
数据 仓库 中 被 认为 是 一 种 反 模式 ， 但 这 种 方法 在 Hadoop 中 是 有 意义 的 一 一 数据 针对 一 次 
写 和 优化， 存储 重复 数据 的 开销 也 很 小 。” 


萎 虑 过 机 器 学 习 构 建 阶段 的 数据 存储 后 ， 第 二 件 要 思考 的 事 是 如 何 将 模型 从 数据 产品 生 
命 周 期 转移 到 生产 中 ， 以 便 将 其 用 于 识别 模式 、 作 出 预测 或 适应 用 户 行为 ! 模型 拟 合 数 
据 ， 从 而 广泛 应 用 于 新 的 输入 数据 。 拟 合 过 程 通常 会 产生 一 些 模型 的 表示 ， 可 用 于 预测 。 
例如 ， 如 果 你 使 用 杆 素 贝 叶 斯 模型 系列 ， 那 么 拟 合 模型 实际 上 是 一 组 概率 。 通 过 这 些 概 
率 中 包含 的 实例 特征 的 概率 ， 我 们 可 以 计算 类 别 的 条 件 概 率 。 如 有 果 你 使 用 线性 模型 ， 那 
么 拟 合 模型 表示 的 是 一 组 系数 和 一 个 截 距 ， 截 距 与 自 变 量 (特征) 的 线性 组 合 产 生 一 个 
因 变量 (目标 )。 


无 论 如 何 ， 这 种 表示 必须 从 系统 中 导出 才能 运行 和 评估 。 线 性 模型 的 表示 非常 小 ， 只 是 一 组 
系数 而 已 。 贝 叶 斯 模型 的 拟 合 模型 可 能 更 大 一 点 一 一 它 是 系统 中 每 个 特征 和 类 的 一 组 概率 ， 
因此 模型 表示 的 大 小 与 特性 数量 直接 相关 。 随 机 森林 是 多 个 决策 树 的 集合 ， 使 用 基于 规则 的 
方法 分 割 决策 空间 。 虽 然 每 个 决策 树 只 是 一 个 较 小 的 树 状 数据 结构 ， 但 是 在 大 数据 环境 中 ， 
决策 空间 可 能 又 大 又 复杂 ， 随 机 森林 中 决策 树 的 数量 也 可 能 带 来 存储 问题 。 模 型 表示 越 来 越 
大 , 一 直到 最 近邻 方法 一 一 它 需 要 存储 每 个 用 于 距离 计算 的 训练 实例 来 作出 决策 。 



























































注 2:《Hadoop 应 用 架构 》Mark Grover 等 人 闭 。 本 书 已 由 人 民 邮 电 出 版 社 出 版 ，http://www.ituring.com.cn/ 
book/1710。 一 一 编者 注 
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到 目前 为 止 ， 我 们 已 经 知道 了 导出 拟 合 模型 的 两 个 主要 机 制 : 使 用 Python 和 Scikit-Learn 
序列 化 数据 和 将 Spark 模型 写 回 HDFS。 但 如 果 模 型 表示 管理 过 程 是 数据 产品 生命 周期 的 
一 部 分 ， 你 会 发 现 其 他 分 析 任务 (规范 化 、 删 除 重复 数据 、 抽 样 等 ) 也 很 有 必要 。 


10.3 小结 


大 数据 科学 就 是 使 用 分 布 式 计 算 技 术 进 行 描述 性 分 析 和 推断 性 分 析 ， 和 希望 这 些 需 要 分 布 式 
计算 的 数据 的 数量 、 多 样 性 和 速度 将 带 来 更 深入 或 更 有 针对 性 的 见解 。 此 外 ， 数 据 科学 的 
产 出 是 数据 产品 一 一 从 数据 中 获取 价值 并 生成 新 数据 的 产品 。 因 此 ， 各 种 生态 系统 工具 的 
集成 通常 围绕 数据 产品 生命 周期 进行 架构 。 

数据 产品 生命 周期 中 有 一 个 内 部 机 器 学 习 生 命 周期 ， 它 又 包含 两 个 主要 阶段 : 构建 阶段 和 
运行 阶段 。 构 建 阶段 需要 特征 分 析 和 数据 探索 ， 运 行 阶段 旨 在 将 产品 的 数据 生成 方面 暴露 
给 与 数据 产品 交互 的 真实 用 户 ， 生 成 可 用 于 调整 模型 的 数据 ， 使 模型 更 准确 或 更 通用 。 通 
过 提供 数据 采集 、 数 据 整 理 、 数 据 探索 和 计算 框架 ， 数 据 产品 生命 周期 提供 了 构建 和 运行 
模型 的 工作 流 。 大 多 数 生 产 架 构 结 合 了 人 工 (由 数据 科学 家 驱动 计算 ) 分 析 和 自动 数据 处 
理工 作 流 ， 这 些 工作 流 由 Hadoop 技术 生态 系统 提供 和 管理 。 


Hadoop 和 分 布 式 计算 技术 的 生态 系统 是 巨大 且 不 断 扩展 的 ， 但 本 书 只 讨论 了 它 的 基本 概 
念 ， 以 及 在 评估 和 选择 基于 Hadoop 的 工具 和 算法 实现 数据 产品 工作 流 时 要 考虑 的 一 些 因 
素 和 作出 的 取舍 一 一 因为 这 都 取决 于 你 的 需求 。 接 下 来 该 怎么 做 ， 是 在 自己 的 集群 上 进行 
实验 和 应 用 这 些 工具 和 模式 ， 还 是 更 深入 地 研究 Hadoop 或 相关 项 目 ， 都 取决 于 你 。 但 是 
希望 本 书 介绍 的 概念 、 工 具 和 技术 为 你 提供 了 一 个 清晰 的 起 点 ， 并 能 持续 为 你 的 分 布 式 数 
据 分 析 之 旅 提供 助力 。 


如 有 果 你 读 到 这 里 了 ， 那 真 的 要 蕉 喜 你 ! 你 终于 到 达 了 Hadoop 分 布 式 数 据 分 析 指 南 的 终点 ， 
希望 这 份 指南 是 广泛 且 实用 的 。 本 书 的 目标 是 让 你 拥有 足够 的 基础 知识 和 背景 知识 ， 了 解 
如 何 使 用 Hadoop 分 布 式 计 算 进 行 强大 的 大 规模 数据 分 析 ， 并 为 深入 了 解 其 他 一 些 子 主题 
和 技术 作 好 准备 。 
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附录 人 


创建 Hadoop 伪 分 布 式 开 友 环境 





为 了 执行 本 书 中 的 代码 ， 你 需要 设置 开发 环境 。Hadoop 开发 人 员 通 常 在 伪 分 布 式 环境 (也 
被 称 为 单个 节点 设置 ) 上 测试 其 脚本 和 代码 ， 该 虚拟 机 在 单个 机 器 上 同时 运行 所 有 Hadoop 
守护 进程 。 
如 下 指导 将 帮助 你 在 Ubuntu 14.04 上 使 用 Hadoop 2.5.0 安装 一 个 伪 分 布 式 环 境 。 


A.1 快速 上 手 


如 果 你 不 熟悉 Linux 系统 管理 ， 或 者 不 想 自己 去 安装 Hadoop， 那 么 有 几 个 选择 。 我 们 提供 
了 一 个 VMDK， 供 你 在 选中 的 虚拟 化 软件 〈 如 VirtualBox 或 VMWare Fusion) 中 使 用 ; 此 
外 ，Hortonworks 和 Cloudera 都 提供 了 可 快速 下 载 的 虚拟 机 。 

若 想 快速 安装 ， 只 需 下 载 虚 拟 机 并 在 你 最 喜欢 的 虚拟 化 软件 中 运行 它 。 请 注意 ， 如 果 你 使 
用 Cloudera 或 Hortonworks 的 发 行 版 ， 那 么 可 能 与 我 们 使 用 的 环境 略 有 不 同 。 要 完成 所 有 
设置 ， 请 下 载 预先 配置 好 的 机 器 或 按照 如 下 所 述 步 骤 进 行 。 

如 果 你 使 用 了 我 们 提供 的 VMDK， 请 使 用 以 下 用 户 名 和 密码 登录 机 器 : 


username: student 
password: password 


如 果 你 有 信心 自己 设置 环境 ， 那 么 请 继续 看 下 一 市 |! 


A.2 ”设置 Linux 环 境 


在 开始 安装 Hadoop 之 前 ， 你 需要 配置 一 个 可 以 使 用 的 Linux 环境 。 下 面 的 指导 假设 你 能 
在 你 选 的 机 器 上 安装 Ubuntu 14.04 发 行 版 一 一 要 么 选择 双 引 导 配置 ， 要么 选择 虚拟 机 。 你 
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可 以 赁 喜好 选择 使 用 Ubuntu 服务 器 版 还 是 Ubuntu 桌面 版 ， 但 是 不 管 怎 样 都 需要 熟悉 如 何 
使 用 命令 行 。 


我 们 的 基础 环境 是 Ubuntu x64 Desktop 14.04 LTS。 
通过 运行 以 下 命令 ， 确 保 你 的 系统 是 最 新 的 : 














寸 运 
$ sudo apt-get update && sudo apt-get upgrade 
$ sudo apt-get instaLL build-essential ssh lzop git rsync curl 
$ sudo apt-get install python-dev python-setuptools 
$ sudo apt-get install libcurl4-openssl-dev 
$ sudo easy_install pip 
$ sudo pip install virtualenv virtualenvwrapper python-dateutil 


A.2.1 创建 Hadoop 用 户 


为 了 保障 Hadoop 服务 的 安全 ， 确 保 Hadoop 作为 Hadoop 特定 的 用 户 和 组 运行 。 此 用 户 将 
能 够 启动 与 集群 中 其 他 节点 的 SSH 连接 ， 但 没有 能 损害 运行 着 服务 的 操作 系统 的 管理 访 I 
权限 。 实 施 Linux 权限 也 有 助 于 保障 HDFS 的 安全 ， 并 且 是 准备 安全 计算 集群 的 第 一 步 。 
本 教程 不 适用 于 运行 阶段 ， 但 对 数据 科学 家 而 言 ， 这 些 权 限 终究 能 帮 你 减少 一 些 麻烦 ， 因 
此 在 开发 环境 中 设置 权限 还 是 有 用 的 。 而 且 ， 这 还 能 确保 Hadoop 与 其 他 软件 应 用 程序 是 
分 开 的 ， 有 助 于 机 器 维护 的 条 理性 。 

创建 hadoop 用 户 和 组 ， 然 后 将 student 用 户 添 加 到 Hadoop 组 中 : 


$ sudo addgroup hadoop 
$ sudo adduser --ingroup hadoop hadoop 
$ sudo usermod -a -G hadoop student 


注销 并 重新 登录 〈 或 重新 启动 计算 机 )， 输 入 groups 命令 后 ， 就 能 看 到 你 已 经 加 入 了 
Hadoop 组 。 





本 | 



























































A.2.2 配置 SSH 


SSH 是 必需 的 ， 必 须 安 装 在 系统 上 才能 使 用 Hadoop (并 且 能 更 好 地 管理 虚拟 环境 ， 如 果 
你 使 用 的 是 无 界面 的 Ubuntu 就 更 是 如 此 )。 通 过 以 下 命令 为 hadoop 用 户 生 成 ssh 密 铀 : 


$ sudo su hadoop 

$ ssh-keygen 

Generating public/private rsa key pair. 

Enter file in which to save the key (/home/student/.ssh/id_rsa): 
Created directory '/home/student/.ssh'. 

Enter passphrase (empty for no passphrase): 

Enter same passphrase again: 

Your identification has been saved in /home/student/.ssh/id_rsa. 
Your public key has been saved in /home/student/.ssh/id_rsa.pub. 
| We | 


对 所 有 提示 输入 都 按 回 车 键 才 能 接受 默认 值 ， 并 创建 不 需要 密码 进行 身份 验证 的 密 钥 
(这 是 Hadoop 必需 的 )。 由 于 需要 没有 密码 的 SSH， 将 Hadoop 用 户 与 管理 用 户 分 开 
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是 一 种 很 好 的 做 法 ;但 因为 这 是 一 个 开发 集群 ， 我 们 将 选取 捷径 ， 将 student 用 户 作为 
Hadoop 用 户 。 
为 了 让 SSH 能 使 用 密 钥 ， 使 用 以 下 命令 将 公 钼 复制 到 authorized_keys 文件 中 : 


$ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys 
$ chmod 600 ~/.ssh/authorized_keys 


你 应 该 可 以 下 载 这 个 密 钥 ， 并 将 其 用 于 SSH 连接 Ubuntu 环境 。 要 测试 SSH 密 钥 ， 可 使 用 
以 下 命令 : 


$ ssh -L hadoop localhost 


如 果 没 有 要 求 你 输入 密码 就 完成 了 ， 那 么 Hadoop 的 SSH 就 已 经 配置 成 功 。 











A.2.3 安装 Java 


Hadoop 和 大 多 数 Hadoop 生态 系统 需要 Java 来 运行 。Hadoop 需要 Oracle Java 1.6.x 或 更 
高 版 本 ， 通 常 推荐 使 用 特定 版 本 的 Java。 不 过 ，Hadoop 现在 维护 了 一 份 报告 ， 列 出 了 与 
Hadoop 配合 良好 的 各 种 JDK。Ubuntu 没有 在 Ubuntu 仓库 中 维护 Oracle JDK， 因 为 它 是 
专利 代码 ， 所 以 我 们 将 安装 OpenJDK。 有 关 支持 的 Java 版 本 的 更 多 信息 ， 请 参见 Hadoop 
Java 版 本 (http://wiki.apache.org/hadoop/HadoopJavaVersions) ; 有 关 在 Ubuntu 上 安装 不 同 
版 本 的 信息 ， 请 参见 在 Ubuntu 上 安装 Java (https://help.ubuntu.com/community/Java)。 




















$ sudo apt-get install openjdk-7-* 
进行 快速 检查 ， 确 保安 装 了 正确 版 本 的 Java: 


$ java -version 

java version "1.7.0_55" 

OpenJDK Runtime Environment (IcedTea 2.4.7) (7u55-2.4.7-1ubuntu1) 
OpenJDK 64-Bit Server VM (build 24.51-b03, mixed mode) 





目前 ，Hadoop 已 在 OpenJDK 和 Oracle 的 JDK/JRE 上 进行 了 构建 和 测试 。 


A.2.4 禁用 IPv6 


有 报告 称 Ubuntu 上 运行 的 Hadoop 与 IPv6 有 冲突 。 因 此 ， 自 Hadoop 0.20 以 后 ，Ubuntu 
用 户 一 直 在 其 集群 中 禁用 IPv6。 虽 然 目 前 尚 不 清楚 最 新 版 本 的 Hadoop 是 否 仍然 有 这 个 漏 
洞 ， 但 是 在 单个 节点 或 者 说 伪 分 布 式 环境 中 无 须 使 用 IPv6， 因 此 最 好 禁用 它 ， 避 免 任 何 淤 
在 问题 。 
通过 执行 以 下 代码 行 ， 编 辑 /etc/sysctl.conf 文件 : 

$ gksu gedit /etc/sysctl.conf 
然后 将 以 下 内 容 添加 到 文件 的 末尾 : 

# 禁用 ipv6 

net.ipv6.conf.all.disable ipv6 = 1 


net.ipv6.conf.default.disable ipv6 = 1 
net.ipv6.conf.lo.disable ipv6 = 1 
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要 使 更 改 生效 ， 请 重新 启动 计算 机 。 一 旦 重新 启动 ， 请 使 用 以 下 命令 检查 状态 : 
$ cat /proc/sys/net/ipv6/conf/all/disable_ipv6 


如 果 输 出 为 0， 则 IPv6 是 启用 的 ， 如 果 为 1， 说明 已 成 功 禁 用 IPv6。 


A.3 安装 Hadoop 


要 获取 Hadoop， 你 需要 从 其 中 一 个 Apache 下 载 镜 像 (http://www.apache.org/dyn/closer.cgi/ 
hadoop/common/) 下 载 你 选择 的 版 本 。 如 下 指导 将 下 载 编写 本 书 时 带 YARN 的 Hadoop 稳 
定 版 本 一 一 Hadoop 2.5.0。 


选择 镜像 后 ， 在 终端 窗口 中 键入 以 下 命令 ， 将 http://apache.mirror.com/hadoop-2.5.0/ 替换 为 
你 选择 的 、 最 适合 你 所 在 区 域 的 镜像 URL: 


$ curl -0 http://apache.mirror.com/hadoop-2.5.0/hadoop-2.5.0.tar.gz 


通过 确保 md5sun 与 镜像 中 的 md5sunm 匹配 来 验证 下 载 : 


$ md5sum hadoop-2.5.0.tar.gz 
5d5f0c8969075f8c0a15dc616ad36b8a hadoop-2.5.0.tar.gz 


当然 ， 你 也 可 以 使 用 任何 你 想 用 的 办 法 下 载 Hadoop 一 一 使 用 wget 命令 或 浏览 器 都 可 以 。 


A.3.1 解压 


在 得 到 压缩 的 tarball 文件 之 后 ， 下 一 步 就 是 将 它 解 压 。 你 可 以 使 用 Archive Manager， 或 者 
按照 以 下 说 明 进 行 操作 。 你 必须 作出 一 个 最 重要 的 决定 : 要 将 Hadoop 解压 到 何 处 。 


Linux 操作 系统 依赖 于 分 层 目 录 结 构 。 在 根 目录 下 ， 你 听 说 过 的 许多 目录 都 有 特定 用 途 : 
/etc 用 于 存储 配置 文件 ， 而 /home 用 于 存储 用 户 特定 的 文件 。 大 多 数 应 用 程序 遍布 在 多 个 
位 置 。 例 如 ，/bin 和 /sbin 中 有 对 操作 系统 至 关 重 要 的 程序 ，/usr/bin 和 srsbin 中 的 程序 
虽 不 是 至 关 重 要 ,但 是 系统 范围 的 。/usr/local 用 于 本 地 安装 的 程序 ， 而 /var 用 于 包含 缓存 
和 日 志 的 程序 数据 。 你 可 以 在 这 篇 Stack Exchange 文章 (http://bit.ly/1Tr6QuW) 中 了 解 更 
多 有 关 这 些 目录 的 信息 。 


将 Hadoop 移 至 /opt 和 /srv 目录 是 不 错 的 选择 。/opt 包含 非 打 包 程 序 ， 通 常 为 源码 ， 很 多 
开发 人 员 将 他 们 的 代码 放 在 那里 用 于 部 署 。/srv 目录 代表 服务 ，Hadoop、HBase、Hive 等 
作为 服务 在 机 器 上 运行 ， 所 以 这 似乎 也 是 一 个 好 地 方 。 此 外 ， 它 还 是 一 个 很 容易 访问 的 标 
准 位 置 ， 因 此 我 们 把 所 有 内 容 都 放 在 这 里 。 输 入 以 下 命令 : 

$ tar -xzf hadoop-2.5.0.tar.gz 

$ sudo mv hadoop-2.5.0 /srv/ 

$ sudo chown -R hadoop:hadoop /srv/hadoop-2.5.0 


$ sudo chmod g+w -R /srv/hadoop-2.5.0 
$ sudo ln -s /srv/hadoop-2.5.0 /srv/hadoop 


这 些 命令 解压 Hadoop， 将 其 移 至 服务 目录 ， 然 后 设置 权限 。 所 有 Hadoop 和 集群 服务 将 存 


放 在 服务 目录 。 最 后 ， 创 建 一 个 我 们 希望 使 用 的 Hadoop 版 本 的 symlink， 以 便 将 来 可 以 轻 
松 升级 Hadoop 发 行 版 。 
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A.3.2 ”环境 
为 了 确保 一 切 正常 执行 ， 来 设置 一 些 环境 变量 ， 确 保 Hadoop 在 正确 的 上 下 文中 执行 。 在 
命令 行 中 输入 以 下 命令 ,使 用 hadoop 用 户 配 置 文件 打开 文本 编辑 器 来 更 改 环 境 变 量 : 
$ gksu gedit /home/hadoop/.bashrc 
将 如 下 内 容 添加 到 该 文件 : 
# 设置 Hadoop 相 关 的 环境 变量 


export HADOOP_HOME=/srv/hadoop 
export PATH=SPATH:SHADOOP_HOME/bin 





# 设置 JAVA_HOME 
export JAVA_HOME=/usr/Lib/jvm/java-7-openjdk-amd64 


我 们 还 将 添加 一 些 方便 的 功能 到 student 用 户 环境 。 使 用 以 下 命令 打开 student 用 户 bash 
别名 文件 : 


$ gedit ~/.bash_aliases 
将 以 下 内 容 添 加 到 该 文件 : 


# 设置 Hadoop 相 关 的 环境 变量 

export HADOOP_HOME=/srv/hadoop 

export HADOOP_STREAMING=$HADOOP_HOME/share/hadoop/tools/lib/ 
hadoop-streaming-2.5.0.jar 

export PATH=S$PATH:SHADOOP_HOME/bin 








# 设置 JAVA_HOME 
export JAVA_HOME=/usr/Lib/jvm/java-7-openjdk-amd64 














# 有 用 的 别名 
alias ..="cd .." 
alias ECEd 


alias hfs="hadoop fs" 
alias hls="hfs -ls" 


这 些 简单 的 别名 可 以 节省 大 量 的 打字 时 间 ! 随意 添加 任何 你 认为 在 开发 工作 中 可 能 有 用 的 








通过 运行 Hadoop 命令 ,检查 你 的 环境 配置 是 否 有 效 : 


$ hadoop version 

Hadoop 2.5.0 

Subversion http://svn.apache.org/repos/asf/hadoop/common -r 1616291 
Compiled by jenkins on 2014-08-06T17:312 

Compiled with protoc 2.5.0 

From source with checksum 423dcd5a752eddd8e45ead6fd5ff9a24 

This command was run using /srv/hadoop-2.5.0/share/hadoop/common/ 
hadoop-common-2.5.0.jar 


如 果 没 有 出 现 错误 ， 并 显示 类 似 于 此 处 的 输出 ， 则 所 有 内 容 都 已 正确 配置 。 
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A.3.3 Hadoop 配 置 
设置 伪 分 布 式 Hadoop 的 倒数 第 二 步 是 编辑 Hadoop 环境 、MapReduce site、HDFS site 和 
YARN site 的 配置 文件 。 这 主要 指 的 是 编辑 配置 文件 。 
通过 在 命令 行 中 输入 以 下 内 容 来 编辑 hadoop-env.sh 文件 : 
$ gedit $HADOOP_HOME/etc/hadoop/hadoop-env.sh 
该 配置 最 重要 的 部 分 是 更 改 以 下 内 容 : 


# 使 用 的 Java 实 现 
export JAVA_HOME=/usr/Lib/jvm/java-7-openjdk-amd64 


接着 ， 编 辑 core site 配置 文件 ; 


$ gedit SHADOOP_HOME/etc/hadoop/core-site.xmL 








TT 








使 用 如 下 内 容 替 换 <configuration></configuration>: 


<configuration> 
<property> 
<name>fs.defauLt.name</name> 
<VvaLue>hdfs://LocaLhost:9000</vaLue> 
</property> 
<property> 
<name>hadoop. tmp.dir</name> 
<value>/var/app/hadoop/data</value> 
</property> 
</configuration> 


下 一 步 ， 编 辑 mapreduce site 配置 一 一 通过 复制 模板 ， 打 开 文件 进行 编辑 : 


$ cp $SHADOOP_HOME/etc/hadoop/mapred-site.xml.template \ 
S$HADOOP_HOME /etc/hadoop/mapred-site.xml 
$ gedit S$HADOOP_HOME/etc/hadoop/mapred-site.xml 





使 用 如 下 内 容 替 换 <configuration></configuration>: 


<configuration> 
<property> 
<name>mapreduce.framework.name</name> 
<value>yarn</value> 
</property> 
</configuration> 


现在 通过 编辑 如 下 文件 ， 来 编辑 hdfs site 配置 : 


$ gedit SHADOOP_HOME/etc/hadoop/hdfs-site.xmL 





使 用 如 下 内 容 替 换 <configuration></configuration>: 


<configuration> 
<property> 
<name>dfs.replication</name> 
<value>1</value> 
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</property> 
</configuration> 


最 后 ， 编 辑 yarn site 文件 : 
$ gedit S$HADOOP_HOME/etc/hadoop/yarn-site.xml 


按 如 下 所 示 更 新 配置 文件 : 


<configuration> 

<property> 
<name>yarn.nodemanager .aux-services</name> 
<value>mapreduce_shuffle</value> 

</property> 

<property> 
<name>yarn.nodemanager .aux-services.mapreduce_shuffle.class</name> 
<value>org.apache.hadoop.mapred.ShuffleHandler</value> 

</property> 

<property> 
<name>yarn.resourcemanager .resource-tracker .address</name> 
<value>localhost:8025</value> 

</property> 

<property> 
<name>yarn.resourcemanager .scheduler .address</name> 
<value>localhost:8030</value> 

</property> 

<property> 
<name>yarn.resourcemanager .address</name> 
<value>localhost:8050</value> 

</property> 

</configuration> 


编辑 完 这 些 文件 后 ，Hadoop 就 已 被 全 副 武装 ， 成 为 了 一 个 伪 分 布 式 环境 。 


A.3.4 格式 化 NameNode 


启动 Hadoop 前 的 最 后 一 步 是 格式 化 NameNode。NameNode 负责 管理 HDFS。 这 台 
上 的 NameNode 将 把 它 的 文件 保存 在 /var/app/hadoop/data 目录 中 。 我 们 需要 初始 化 这 个 
录 ， 然 后 格式 化 NameNode 来 正确 使 用 它 


$ sudo mkdir -p /var/app/hadoop/data 

$ sudo chown hadoop:hadoop -R /var/app/hadoop 
$ sudo su hadoop 

$ hadoop namenode -format 




















你 会 看 到 页 面向 下 滚动 显示 了 一 大 堆 Java 消息 。 如 果 namenode 命令 成 功 执行 (/var/app/ 
hadoop/data 目录 下 应 该 有 目录 ， 包 括 一 个 dfs 目录 )， 那 么 Hadoop 就 设置 完成 并 可 以 使 
用 了 ! 





A.3.5 ”启动 Hadoop 


此 时 就 可 以 启动 和 运行 Hadoop 0 格式 化 NameNode 时 ， 用 sudo su hadoop 命令 
切换 到 hadoop 用 户 。 如 果 还 是 该 用 户 ， 继 续 执行 以 下 命令 : 
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$ S$SHADOOP_HOME/sbin/start-dfs.sh 
$ S$HADOOP_HOME/sbin/start-yarn.sh 


守护 进程 会 启动 并 发 出 消息 ， 内 容 包括 记录 日 志 的 位 置 和 其 他 重要 信息 。 如 果 遇 到 有 关 
SSH 密 钥 的 问题 ， 只 需要 在 遇 到 提示 时 输入 y。 可 以 通过 jps 命令 查看 正在 运行 的 进程 : 

$ jps 

5298 Jps 

4690 ResourceManager 

4541 SecondaryNameNode 


4813 NodeManager 
4227 NameNode 


如 果 进 程 没 有 运行 ， 就 一 定 有 哪里 出 错 了 。 你 可 以 打开 浏览 器 ， 访 问 http://localhost:8088 来 
访问 Hadoop 集群 管理 网 站 一 一 这 会 打开 一 个 页 面 ， 上 面 有 Hadoop 标志 和 一 个 应 用 列表 。 
最 后 ， 在 HDFS 上 为 student 账户 准备 一 个 空间 ， 用 来 存储 数据 并 运行 分 析 作 业 : 


$ hadoop fs -mkdir -p /user/student 
$ hadoop fs -chown student:student /user/student 


现在 可 以 使 用 exit 命令 退出 hadoop 用 户 的 shell。 










































































A.3.6 重启 Hadoop 
如 果 重 新 启动 机 器 ，Hadoop 守护 进程 将 停止 运行 ， 并 且 不 会 自动 重新 启动 。 如 果 你 尝试 
运行 Hadoop 命令 ， 并 且 收 到 了 消息 “Connection refused”， 则 可 能 是 由 于 守护 进程 未 运 
行 。 可 以 使 用 sudo 运行 jps 命令 来 进行 检查 : 

$ sudo jps 
要 在 关闭 后 重新 启动 Hadoop， 运 行 以 下 命令 即 可 : 


$ sudo -H -u hadoop $HADOOP_HOME/sbin/start-dfs.sh 
$ sudo -H -u hadoop $HADOOP_HOME/sbin/start-yarn.sh 


这 些 进程 就 会 作为 hadoop 用 户 重新 启动 ， 你 又 可 以 继续 了 ! 






































创建 Hadoop 伪 分 布 式 开发 环境 | 183 








附录 B 
安装 Had00p 生 态 系统 产品 





除了 Hadoop 提供 的 核心 功能 之 外 ， 本 书 也 涵盖 了 构建 于 Hadoop 之 上 的 其 他 Hadoop 生态 
系统 项 目 。 在 典型 设置 中 ， 这 些 产 品 通常 要 么 安装 在 运行 Hadoop 和 YARN 的 集群 上 ， 要 
么 通过 配置 连接 到 Hadoop 集群 。 本 书 假设 你 已 经 在 单个 节点 上 设置 和 配置 了 伪 分 布 式 模 
式 的 Apache Hadoop。 然 而 ， 要 运行 单 节点 Hadoop 集群 和 Hadoop 生态 系统 产品 ， 还 有 其 
他 儿 个 选择 ， 本 书 也 将 对 此 进行 讨论 。 


B.1 打包 的 Hadoop 发 行 版 


要 运行 Hadoop 单机 配置 ， 最 简单 的 方法 是 安装 一 款 由 主流 Hadoop 厂商 提供 的 虚拟 化 
Hadoop 发 行 版 ， 比 如 Cloudera 的 Quickstart VM (ttp://bit.ly/1YWtzPC)、Hortonworks Sandbox 
(http://bit.ly/1YWtyLy) 和 MapR 的 Hadoop 沙 箱 (http://bit.ly/1YWtz27)。 除 了 一 个 单 节点 
Hadoop 集群 之 外 ， 这 些 虚 拟 机 还 包含 流行 的 Apache Hadoop 生态 系统 项 目 以 及 专 有 的 应 用 
程序 和 工具 ， 它 们 都 在 一 个 简单 的 完整 包 (turn-key bundle) 里 。 你 可 以 使 用 喜欢 的 虚拟 化 
软件 ， 如 VMWare Player (https://www.vmware.com/products/player) 或 Virtualbox (https:// 
www.virtualbox.org/wiki/Downloads) 来 运行 这 些 虚 拟 机 。 


B.2 自己 安装 Apache Hadoop 生 态 系统 产品 


如 果 你 没有 使 用 打包 的 Hadoop 发 行 版 ， 而 是 手动 安装 了 Apache Hadoop， 那 么 你 就 
还 需要 手动 安装 和 配置 本 书 中 讨论 的 各 种 Hadoop 生态 系统 项 目 ， 使 它们 能 使 用 安装 
好 的 Hadoop。 

在 大 多 数 情 况 下 ， 在 设置 好 的 Hadoop 环境 中 安装 服务 (例如 Hive、HBase 等 ) 包含 如 下 
几 个 步骤 。 
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让 


(1) 下 载 该 服务 的 tarball 发 布 文件 。 

(2) 将 发 布 文件 解压 到 /srv/ 目录 (其 中 安装 了 Hadoop 服务 ) ， 并 从 发 布 文件 创建 一 个 符号 
链接 指向 一 个 简单 的 名 称 。 

(3) 配置 环境 变量 ,添加 服务 的 路 径 。 

(4) 配置 服务 ， 以 伪 分 布 式 模式 运行 。 


在 本 附录 中 ， 我 们 将 逐步 安装 Sqoop， 从 而 使 用 伪 分 布 式 Hadoop 集群 。 这 些 步骤 同样 适 
用 于 几乎 所 有 本 书 讨论 的 Hadoop 生态 系统 项 目 。 


B.2.1 基本 安装 和 配置 步骤 


首先 从 Apache Sqoop 下 载 镜 像 (http://www.apache.org/dyn/closer.cgi/sqoop/1.4.6) 下 载 最 
新 的 Sqoop 稳定 版 本 ， 本 书 创作 时 的 版 本 为 1.4.6。 确 保 你 是 拥有 管理 员 (sudo) 权限 的 用 
户 ， 并 获取 与 Hadoop 版 本 (在 本 示例 中 为 Hadoop 2.5.1) 兼容 的 Sqoop 版 本 : 

~$ wget http://apache.arvixe.com/sqoop/1.4.6/sqoop-1.4.6.bin__ 

hadoop-2.0.4-alpha.tar .gz 

~$ sudo mv sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz /srv/ 

~$ cd /srv 

/srv$ sudo tar -xvf sqoop-1.4.6.bin_ hadoop-2.0.4-alpha.tar.gz 

/srv$ sudo chown -R hadoop:hadoop sqoop-1.4.6.bin hadoop-2.0.4-alpha 

/srv$ sudo ln -s $(pwd)/sqoop-1.4.6.bin hadoop-2.0.4-alpha $(pwd)/sqoop 


现在 使 用 sudo su 命令 切换 到 hadoop 用 户 ， 编 辑 你 的 Bash 配置 ， 添 加 一 些 能 提供 方便 的 
环境 变量 : 


/srv$ sudo su hadoop 
$ vim ~/.bashrc 


将 以 下 环境 变量 添加 到 你 的 bashrc 配置 文件 中 : 
# Sqoop 别 名 


export SQOOP_HOME=/srv/sqoop 
export PATH=SPATH:$SQOOP_HOME/bin 


然后 使 用 source 运行 配置 文件 ， 将 新 变量 添加 到 当前 shell 环境 中 : 


~$ $ source ~/.bashrc 














I 






































通过 从 $5SQ00P_HOME 运行 sqoop help 来 验证 Sqoop 是 否 安 装 成 功 : 


/srv$ cd $SQOOP_HOME 
/srv/sqoop$ sqoop help 


15/06/04 21:57:40 INFO sqoop.Sqoop: Running Sqoop version: 1.4.6 
Usage: sqoop COMMAND [ARGS] 


Available commands: 


codegen Generate code to interact with database records 
create-hive-table Import a table definition into Hive 

eval Evaluate a SQL statement and display the results 
export Export an HDFS directory to a database table 
help List available commands 
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import Import a table from a database to HDFS 


import-all-tables Import tables from a database to HDFS 
job Work with saved jobs 

list-databases List available databases on a server 
list-tables List available tables in a database 
merge Merge results of incremental imports 
metastore Run a standalone Sqoop metastore 
version Display version information 


See 'sqoop help COMMAND' for information on a specific command. 


如 果 你 看 到 任何 与 HCatalog 有 关 的 警告 ， 和 暂且 可 以 放心 地 忽略 它们 。 由 代码 可 知 ，Sqoop 
提供 了 一 系列 导入 、 导 出 特定 的 命令 和 工具 ， 能 与 数据 库 或 Hadoop 数据 源 连 接 。 


Sqoop 进程 要 么 通过 运行 Sqoop 命令 手动 执行 ， 要么 由 上 游 系 统 调度 或 触发 Sqoop 操作 
来 执行 。 但 是 ， 我 们 将 要 安装 的 其 他 产品 还 包 插 启动 守护 进程 的 命令 。 可 以 使 用 jps 命 
令 将 这 些 运行 中 的 进程 列 出 ， 比 如 所 有 的 Java 进程 。jps 命令 在 验证 所 有 预期 的 Hadoop 
进程 是 否 运 行 时 非常 有 用 ;， 例如， 如果 你 按照 附录 A 所 述 局 动 了 Hadoop， 应 该 能 看 到 
以 下 进程 : 

~$ jps 

10029 NameNode 

10670 NodeManager 

21694 Jps 

10187 DataNode 

10373 SecondaryNameNode 


11034 JobHistoryServer 
10541 ResourceManager 


如 果 没 有 看 到 这 些 进程 ， 请 参见 附录 A 和 第 2 章 中 有 关 启 动 和 停止 Hadoop 服务 的 讨论 。 


B.2.2 ”Sqoop 特 定 配 置 


在 将 MySQL 表 数 据 导 入 HDFS 之 前 ， 需 要 下 载 MySQL JDBC 连接 器 驱动 程序 ， 并 将 其 添 
加 到 Sqoop 的 lib 文件 夹 中 : 

~$ wget http://dev.mysql.com/get/Downloads/Connector-J/mysql-connector-java-5.1. 

30.tar.gz 

~$ tar -xvf mysql-connector-java-5.1.30.tar.gz 

~$ cd mysql-connector-java-5.1.30 

$ sudo cp mysql-connector-java-5.1.30-bin.jar /srv/sqoop/Lib/ 

$ cd $SQOOP_HOME 
这 让 Sqoop 能 连接 到 我 们 的 MySQL 数据 库 。 你 现在 应 该 已 经 在 本 地 开发 环境 中 成 功 安装 
了 Sqoop 和 MySQL 服务 器 和 客户 端 ， 并 配置 好 了 Sqoop， 可 以 导入 和 导出 MySQL。 


B.2.3 ” ”Hive 特定 配 置 


Hive 的 安装 类 似 于 Sqoop。 但 一 旦 安装 了 Hive， 就 需要 将 其 配置 为 在 Hadoop 单 节 点 集群 
上 运行 。 具 体 来 说 ，Hive 要 求 配置 Hive 仓库 (将 包含 Hive 的 数据 文件 ) 和 metastore 数 
据 库 (将 包含 Hive 的 模式 和 表 的 元 数据 )。 
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1. Hive 仓 库 目录 

默认 情况 下 ，Hive 数据 存储 在 HDFS 中 ， 位 于 /user/hive/warehouse 仓库 目录 。 我 们 需要 确保 
HDFS 中 有 这 个 目录 ， 而 且 所 有 Hive 用 户 都 可 以 写 入 。 如 果 要 更 改 此 位 置 ， 可 以 通过 覆盖 
$HIVE_HOME/conf/hive-site.xml 中 的 配置 来 修改 hive.metastore.warehouse.dir 属性 的 值 。 
至 于 单 节 点 配置 ， 假 设 我 们 将 使 用 默认 仓库 目 孙 ， 并 在 HDFS 中 创建 必要 的 目录 。 首 先 创 
建 一 个 /tmp 目录 、 一 个 hive 用 户 目录 和 默认 仓库 目录 : 


$ hadoop fs -mkdir /tmp 
$ hadoop fs -mkdir -p /user/hive 
$ hadoop fs -mkdir /user/hive/warehouse 


还 需要 设置 这 些 目录 的 权限 ， 以 便 它们 可 以 由 Hive 写 入 : 


$ hadoop fs -chmod g+w /tmp 
$ hadoop fs -chmod g+w /user/hive/warehouse 


此 外 ，Hive 得 能 写 入 你 配置 的 本 地 Hadoop 临时 数据 目录 。 因 此 ， 还 需要 确保 hadoop 组 有 
写 入 权限 ， 以 在 该 路 径 中 创建 目录 : 


$ chmod g+w /var/app/hadoop/data 























2. Hive metastore 数 据 库 
Hive 需要 一 个 metastore 服务 后 端 ， 供 它 用 于 存储 表 模 式 定 义 、 分 区 和 相关 元 数据 。Hive 
metastore 服务 还 通过 metastore 服务 API 为 客户 端 (包括 Hive) 提供 访问 metastore 信息 的 
接口 。 
配置 metastore 有 几 种 不 同 的 方式 ， 黑 认 的 Hive 配置 使 用 能 入 的 metastore Derby SQL 
Server， 提 供 单 进程 存储 ，Hive 驱动 程序 、metastore 接口 和 Derby 数据 库 共享 相同 的 JVM。 
这 个 配置 便于 开发 和 单元 测试 ， 但 不 支持 真正 的 集群 配置 ， 因 为 任何 时 候 都 只 有 单个 用 户 
可 以 连接 到 Derby 数据 库 。 能 用 于 生产 的 配置 将 包含 MySQL 或 PostgreSQL 等 数据 库 。 


出 于 本 章 的 目的 ， 我 们 将 使 用 具 入 的 Derby 服务 器 作为 metastore 服务 。 但 是 建议 你 阅读 
Apache Hive 手册 ， 安 装 生 产 级 配置 的 本 地 或 远程 metastore 服务 器 。 


默认 情况 下 ，Derby 将 在 启动 Hive 会 话 的 当前 工作 目录 下 创建 一 个 metastore_db 子 目 录 。 
但 如 果 你 更 改 了 工作 目录 ，Derby 将 无 法 找到 以 前 的 metastore， 并 会 重新 创建 它 。 为 了 避 
免 这 种 情况 发 生 ， 需 要 更 新 metastore 配置 ， 对 metastore 数据 库 的 永久 位 置 进行 配置 : 


~$ cd SHIVE_HOME/conf 
/srv/hive/conf$ sudo cp hive-defauLt.xmL.tempLate hive-site.xml 
/srv/hive/conf$ vim hive-site.xml 


查找 名 称 为 javax.jdo.option.ConnectionURL 的 属性 ， 将 其 更 新 为 绝对 路 径 ， 


<property> 
<name>javax. jdo.option.ConnectionURL</name> 
<VaLue>jdbc:derby: ;databaseName=/home/hadoop/metastore_db;create=true</vaLue> 
<description>JDBC connect string for a JDBC metastore</description> 
</property> 







































































更 新 ConnectionURL databaseName 后 ， 保 存 并 关闭 该 文件 。 
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3. 验证 Hive 正 在 运行 
现在 可 以 从 Hive 的 安装 目录 启动 预 打包 的 Hive 命令 行 接口 (CLI) ， 验 证 Hive 配置 是 否 
正确 ， 以 及 它 能 否 在 伪 分 布 式 Hadoop 集群 上 运行 了 。 


从 $SHIVE_HOME 目录 启动 Hive CLI: 








~$ cd SHIVE_HOME 
/srv/hives bin/hive 


如 果 Hive 配置 正确 ， 该 命令 将 启动 CLI 并 显示 Hive CLI 提示 : 


hive> 


你 可 能 会 看 到 与 Hive metastore 配置 过 时 有 关 的 警 


WARN conf.HiveConf: DEPRECATED: hive.metastore.ds.retry.* no Longer has any 
effect. 
Use hive.hmshandler.retry.* instead 


但 是 ， 如 果 你 看 到 任何 错误 ， 请 根据 之 前 的 建议 检查 配置 ， 然 后 重 试 。 可 以 使 用 以 下 命 
随时 退出 Hive CLI: 


hive> exit; 


现在 可 以 在 本 地 和 伪 分 布 式 模式 下 使 用 Hive 来 运行 Hive 脚本 了 。 


B.2.4 HBase 特 定 配置 


HBase 在 安装 后 需要 一 些 额 外 的 配置 。 与 Sqoop 和 Hive 不 同 ， 它 需要 启动 守护 进程 才 可 
以 与 我 们 进行 交互 。 

解压 并 安装 HBase 之 后 ， 它 的 目录 中 有 一 个 包含 HBase 配置 文件 的 /conf 目录 。 我 们 将 编 
辑 配 置 文件 conf/hbase-site.xml， 将 HBase 配置 为 使 用 HDFS 以 伪 分 布 式 模式 运行 ， 并 将 
ZooKeeper 文件 写 入 本 地 目录 。 使 用 vin 编辑 HBase 配置 文件 : 


$ vim SHBASE_HOME/conf/hbase-site.xml 
然后 覆盖 配置 文件 的 以 下 三 个 配置 ; 


<configuration> 
<property> 
<name>hbase.rootdir</name> 
<value>hdfs://localhost:9000/hbase</value> 
</property> 
<property> 
<name>hbase.cluster .distributed</name> 
<value>true</value> 
</property> 
<property> 
<name>hbase.zookeeper .property.dataDir</name> 
<valuye>/home/hadoop/zookeeper</value> 
</property> 
</configuration> 
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通过 此 配置 ，HBase 将 启动 一 个 HBase Master 进程 、 一 个 ZooKeeper 服务 器 和 一 个 
RegionServer 进程 。 默 认 情 况 下 ，HBase 将 所 有 目录 配置 为 /mp， 这 意味 着 除非 更 改 配置 ， 
否则 服务 器 重新 启动 时 将 丢失 所 有 数据 ， 因 为 大 多 数 操作 系统 重启 时 都 会 清除 /tmp。 通 过 
更 新 hbase.zookeeper .property.dataDir 属性 ，HBase 会 将 数据 写 入 hadoop 主 目录 下 的 可 
靠 数据 路 人 径 中 。 

HBase 需要 有 对 本 地 目录 的 写 入 权限 才能 维护 ZooKeeper 文件 。 因 为 我 们 将 
作为 hadoop 用 户 运 行 HBase (或 者 你 设置 的 任何 启动 HDFS 和 YARN 的 用 


户 )， 所 以 请 确保 datapDir 被 配置 为 了 Hadoop 用 户 可 以 写 入 的 路 径 〈 例 如 
/home/hadoop ) 。 




















还 需要 更 新 HBase 环境 设置 的 JAVA_HOME 路 径 。 为 此 ， 在 conf/hbase-env.sh 中 取消 注 
释 并 修改 以 下 设置 : 
export JAVA_HOME=/usr/lib/jvm/java-7-oracle 
现在 ，HBase 应 该 配置 正确 ， 能 在 单 市 点 集群 上 以 伪 分 布 式 模式 运行 了 。 
启动 HBase 
现在 就 可 以 启动 HBase 进程 了 。 但 在 此 之 前 ， 应 该 确保 Hadoop 正在 运行 : 


/srv/hbases jps 

4051 NodeManager 

3523 DataNode 

3709 SecondaryNameNode 
3375 NameNode 

9436 Jps 

3921 ResourceManager 





如 果 HDFS 和 YARN 进程 没 在 运行 ， 先 使 用 $HADOOP_HOME/sbin 下 的 脚本 启动 它们 。 
现在 可 以 启动 HBase 了 | 


/srv/hbases$ bin/start-hbase.sh 

LocaLhost: starting zookeeper, logging to /srv/hbase/bin/../logs/ 
hbase-hadoop-zookeeper -ubuntuy.out 

starting master, logging to /srv/hbase/logs/ 
hbase-hadoop-master-ubuntu.out 

localhost: starting regionserver, logging to 
/srv/hbase/bin/../Logs/hbase-hadoop-regionserver-ubuntu.out 


可 以 使 用 jps 命令 来 验证 哪些 进程 正在 运行 ， 该 命令 将 展示 正在 运行 的 Hadoop 进程 、 
HBase 和 ZooKeeper 进程 、HMaster、HQuorumPeer 以 及 HRegionServer: 








/srv/hbases 

4051 NodeManager 

10225 Jps 

3523 DataNode 

3709 SecondaryNameNode 
3375 NameNode 

3921 ResourceManager 
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9708 HQuorumpPeer 
9778 HMaster 
9949 HRegionServer 


可 以 随时 使 用 stop-hbase.sh 脚本 停止 HBase 和 ZooKeeper: 


/srv/hbase$ bin/stop-hbase.sh 
stopping hbase.................. 
HBase Shell 


HBase 启动 之 后 ， 可 以 使 用 HBase shell 连接 到 正在 运行 的 实例 : 


/srv/hbase$ bin/start-hbase.sh 
/srv/hbases$ bin/hbase shell 


你 会 收 到 提示 : 


HBase Shell; enter 'help<RETURN>' for list of supported commands. 
Type "exit<RETURN>" to leave the HBase Shell 

Version 0.98.9-hadoop2，r96878ece501b0643e879254645d7f3a40eaf101f ， 
Mon Dec 15 23:00:20 PST 2014 








hbase(main):001:0> 

有 关 HBase shell 支持 的 命令 的 文档 ， 请 使 用 help 获取 命令 列表 : 
hbase(main):001:0> help 

还 可 以 使 用 status 命令 检查 HBase 集群 的 状态 : 


hbase(main):002:0> status 
1 servers, 0 dead, 3.0000 average load 


要 退出 shell， 只 需 使 用 exit 命令 : 
hbase(main):003:0> exit 


你 现在 可 以 在 伪 分 布 式 模式 下 使 用 HBase 了 。 一 定 要 记 住 ， 在 与 HBase shell 进行 交互 之 
前 ， 必 须 先 启动 并 运行 Hadoop 进程 和 HBase 进程 。 








B.2.5 安装 Spark 


在 本 地 机 器 上 设置 和 运行 Spark 非常 简单 ， 一 般 遵 循 安装 其 他 Hadoop 生态 系统 的 模式 。 
按照 伪 分 布 式 Ubuntu 机 器 的 说 明 ， 我 们 已 经 满足 了 Spark 的 主要 要 求 ， 即 Java 7+ 和 
Python 2.6+。 确 保 java 和 python 程序 在 路 径 上 ， 并 且 设 置 了 $IJAVA_HOME 环境 变量 (如 
前 所 述 )。 

在 之 前 的 安装 说 明 中 ， 我 们 使 用 wget 或 curl 直接 从 Apache 镜像 获取 了 tarball 文件 。 但 对 
于 Spark 来 说 ， 情 况 略 有 不 同 。 打 开 浏 览 器 并 按照 以 下 步 又 下 载 正 确 版 本 的 Spark。 


(1) 进 入 Spark 下 载 页 面 (http://spark.apache.org/downloads.html)。 
(2) 选择 最 新 的 Spark 版 本 〈 在 创作 本 书 时 为 1.5.2) ， 并 确保 选择 了 一 个 针对 Hadoop 2.4 或 
更 高 版 本 预 构建 的 软件 包 ， 直 接 下 载 。 
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Spark 的 版 本 更 新 往往 比较 频繁 。 为 了 确保 可 以 下 载 到 新 版 本 的 Spark 并 立即 使 用 它们 ， 我 
们 将 把 Spark 软件 包 解压 到 服务 目录 中 ， 然 后 将 该 版 本 符号 链接 到 一 个 泛 化 的 spark 目录 。 
要 更 新 版 本 的 话 ， 只 需 下 载 最 新 版 本 ， 并 将 符号 链接 重 定向 到 它 即 可 。 通 过 这 种 方式 ， 新 
版 本 也 将 拥有 所 有 的 环境 变量 和 配置 ! 


首先 ， 遵 循 标准 惯例 来 安装 Hadoop 生态 系统 服务 : 


$ tar -xzf spark-1.5.2-bin-hadoop2.4.tgz 
$ mv spark-1.5.2-bin-hadoop2.4 /srv/spark-1.5.2 


然后 ， 创 建 Spark 的 符号 链接 版 本 : 
$ ln -s /srv/spark-1.5.2 /srv/spark 


辑 Bash 配置 文件 ， 将 Spark 添加 到 $PATH 并 设置 $SPARK_HOME 环境 变量 。 如 前 所 述 ， 我 
们 将 切换 到 Hadoop 用 户 ， 但 你 也 可 以 将 以 上 所 有 内 容 添 加 到 student 用 户 的 配置 文件 中 : 


$ sudo su hadoop 
$ vim ~/.bashrc 


将 以 下 内 容 添加 到 配置 文件 : 


export SPARK_HOME=/srv/spark 
export PATH=SSPARK_HOME/bin:SPATH 


接 下 来 ， 使 用 source 运行 配置 文件 (或 重新 启动 终端 )， 将 这 些 新 变量 添加 到 环境 中 。 完 
成 之 后 ， 你 应 该 能 够 运行 一 个 本 地 pyspark 解释 器 : 


$ pyspark 

Python 2.7.10 (default, Jun 23 2015, 21:58:51) 

[GCC 4.2.1 Compatible Apple LLVM 6.1.0 (clang-602.0.53)] on darwin 

Type "help", "copyright", "credits" or "license" for more information. 

Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties 














小 




















[… sntp …] 
WeLcome to 
J a 
本 人 
/_/._/\,////\\ version 1.5.2 
/_/ 


Using Python version 2.7.10 (default, Jun 23 2015 21:58:51) 
SparkContext available as sc, HiveContext available as sqlContext. 
>>> 


至 此 ，Spark 已 成 功 安 装 ， 可 在 本 地 计算 机 上 以 独立 模式 运行 ， 也 足以 运行 本 书 的 例子 了 。 
如 果 你 想 测 试 Spark/Hadoop 连接 ， 还 可 以 使 用 spark-submit 将 作业 直接 提交 给 以 伪 分 布 式 
模式 运行 的 YARN 资源 管理 器 。 有 关 此 主题 和 其 他 主题 的 更 多 信息 ， 比 如 在 EC2 上 使 用 
Spark 或 使 用 iPython notebook 设置 Sparkk， 请 参阅 Benjamin Bengfort 的 “Getting Started with 
Spark (in Python)” (http://districtdatalabs.silvrback.com/getting-started-with-spark-in-python ) 。 


最 大 限度 简化 Spark 
Spark (和 PySpark) 的 执行 可 能 非常 元 长 ,会 有 许多 INFO 日 志 消 息 打 印 到 屏幕 上 。 这 
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在 开发 过 程 中 特别 烦人 ， 因 为 Python 堆 跟踪 或 print 语句 的 输出 可 能 会 丢失 。 为 了 降低 
Spark 的 元 长 度 ， 可 以 在 $SPARK_HOME/conf 中 配置 log4j 设置 ， 如 下 所 示 : 


$ cp SSPARK_HOME/conf/Log4j.properties .tempLate \ 
SSPARK_HOME/conf/Log4j.properties 
$ vim SSPARK_HOME/conf/Log4j.properties 


编辑 log4j.properties 文件 ， 将 代码 中 的 每 一 行 的 INF0 替换 成 NARN， 类 似 于 : 


# 设置 :让 所 有 事件 记录 到 控制 台 

log4j.rootCategory=WARN, console 

log4j.appender .console=org.apache.log4j.ConsoleAppender 

log4j.appender .console.target=System.err 

log4j.appender .console.layout=org.apache.log4j.PatternLayout 

log4j.appender .console.layout.Conversionpattern=%d{yy/MM/dd HH:mm:ss} %p %c{1}: 
%m%n 











# 减少 输出 第 三 方 元 杂 的 日 志 

Log4j.Logger.org.ecLipse. jetty=WARN 

Log4j.Logger .org.eclipse.jetty.util.component.AbstractLifeCycle=ERROR 
Log4j.Logger .org.apache.spark.repl.SparkIMain$exprTyper=WARN 
Log4j.Logger .org.apache.spark.repl.SparkILoop$SparkILoopInterpreter=WARN 


再 次 运行 PySpark， 输 出 消息 应 该 简洁 多 了 | 
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术语 表 


可 访问 的 
在 一 个 计算 集群 上 下 文中 ， 如 果 一 个 节点 可 以 通过 网 络 到 达 ， 那 么 它 就 是 可 访问 的 ， 
在 其 他 上 下 文中 ， 如 果 一 个 工具 或 者 库 能 轻易 为 特定 人 群 使 用 和 理解 ， 那 么 它 就 是 可 
访问 的 。 

累加 器 
一 个 共享 变量 ， 只 能 应 用 满足 结合 律 的 运算 ， 如 加 法 (特定 于 Spark， 在 MapReduce 中 
称 为 计数 器 )。 因 为 满足 结合 律 的 运算 是 与 顺序 无 关 的 ， 所 以 无 论 运 算 顺 序 如 何 ， 累 加 
器 都 可 以 在 分 布 式 环境 中 保持 一 致 。 


动作 和 转换 
请 参见 “转换 和 动作 ”。 

代理 
代表 用 户 例 行 运行 的 服务 ， 通 常 是 后 台 进 程 ， 独 立 执行 任务 。Flume 代理 是 构建 数据 流 
的 基本 单元 ， 它 从 源 中 采集 和 整理 数据 ， 最 终 通过 通道 将 数据 传输 到 数据 槽 。 

匿名 函数 
没有 指定 识别 符 (变量 名 称 ) 的 函数 。 这 些 函 数 通常 在 运行 时 构造 ， 并 作为 参数 传递 
给 高 阶 函 数 ， 也 可 以 用 它们 轻松 创建 闭 包 。 传 递 匿名 函数 给 Spark 操作 来 定义 它们 的 行 
为 。 另 请 参见 “ 闭 包 ” 和 “lambda 函数 ”。 

应 用 程序 编程 接口 (application programming interface，API) 
用 于 指定 软件 组 件 如 何 交 互 的 例 程 、 协 议和 接口 的 集合 。MapReduce API 指定 用 于 构建 
Mapper、Reducer 和 Job 子 类 的 接口 ， 定 义 MapReduce 行为 。 与 之 类 似 ，Spark 也 有 可 
以 应 用 于 RDD 的 转换 和 动作 的 API。 












































193 


ApplicationMaster 

在 YARN 中 ，ApplicationMaster 是 特定 于 框架 的 库 (例如 本 书 中 的 MapReduce、Spark 
或 Hive) 的 实例 。ApplicationMaster 从 ResourceManager 协商 取得 资源 ， 在 NodeManager 
上 执行 进程 ， 跟 踪 作 业 状 态 并 监视 进度 。 

满足 结合 律 的 

在 数学 中 ， 不 管 满足 结合 律 的 运算 如 何 分 组 ， 只 要 顺序 保持 不 变 ， 计 算 结果 便 相 同 。 满 
足 结合 律 的 运算 在 分 布 式 环境 中 很 重要 ， 因 为 它 让 你 能 在 计算 最 终 整 体 之 前 让 多 个 处 理 
器 同时 计算 分 组 子 操作 。 

Avro 
Apache Avro 是 Apache Hadoop 内 开发 的 一 个 远程 过 程 调用 (remote procedure call， 
RPC) 数据 序列 化 框架 ， 它 使 用 JSON 定义 模式 和 类 型 ， 然 后 以 紧凑 的 二 进 制 格式 对 数 
据 进行 序列 化 。 


bag of words 
在 文本 处 理 中 ，bag of words 是 一 个 模型 ， 根 据 最 重要 的 令 牌 或 单词 的 频率 或 出 现 编码 
文档 ， 不 考虑 令 牌 的 顺序 。 


偏差 

在 机 器 学 习 中 ， 因 偏差 引起 的 误差 是 模型 的 预期 平均 预测 与 正确 值 之 间 的 差异 。 偏 差 通 
常用 来 衡量 模型 的 错误 程度 。 随 着 偏差 的 增 大 ， 方 差 逐 渐 减 小 。 另 请 参见 “方差 。 

大 数据 
利用 极 大 数据 集 探 寻 与 人 类 行为 和 交互 特别 相关 的 模式 、 趋 势 和 关系 的 计算 方法 学 。 大 
数据 具体 指 的 是 海量 、 难 处 理 和 稍 纵 即 逝 的 数据 ， 单 台 机 器 无 法 进行 可 靠 计 算 。 因此 ， 
大 数据 技术 主要 利用 分 布 式 计 算 和 数据 库 技术 来 计算 结果 。 


二 元 短语 (bigram) 
字符 串 或 数组 中 的 两 个 连续 令 牌 的 序列 。 令 牌 通常 是 字母 、 音 节 或 单词 。 二 元 短语 是 
n-grams 的 特定 形式 ， 其 中 n = 2。 


块 
块 是 HDFS 存储 大 文件 的 方法 ， 将 大 文件 分 割 成 相同 大 小 (通常 为 128MB) 的 数据 块 。 
块 在 多 个 DataNode 上 都 有 副本 (默认 复制 因子 为 3) ， 通 过 宛 余 提 供 数据 持久 性 ， 并 支 
持 数 据 本 地 计算 。 


布 隆 过 滤器 
一 个 紧凑 的 概率 数据 结构 ， 可 用 于 测试 某 些 数据 是 否 是 集合 的 成 员 。 可 能 存在 误 算 率 
(以 为 元 素 是 集合 的 成 员 ， 而 实际 上 不 是 )， 但 可 以 通过 调整 过 滤器 的 大 小 来 设置 误 算出 
现 的 概率 。 漏 报 〈 以 为 元 素 不 是 集合 的 成 员 ， 而 实际 上 是 的 ) 不 会 出 现 ， 因 此 布 隆 过 滤 
器 的 召回 率 高 达 100% 。 

广播 变量 
广播 变量 在 Spark 中 是 一 种 机 制 ， 用 于 创建 按 需 传 输 到 集群 中 每 个 节点 的 只 读数 据 结 
构 。 广 播 变量 可 以 包含 计算 所 需 的 额外 信息 、 先 前 转换 的 结果 或 查找 表 。 因 为 它们 是 只 
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读 的 ， 所 以 是 集群 安全 的 。 另 请 参见 “分 布 式 缓存 ”。 
构建 阶段 
在 机 器 学 习 中 ， 构 建 阶段 通常 通过 一 些 迭 代 优 化 过 程 将 模型 形式 拟 合 到 现 有 数据 。 构 建 
阶段 包括 特征 提取 、 特 征 变换 ， 以 及 正则 化 或 超 参 数 调 整 。 构 建 阶段 的 输出 是 拟 合 模 
型 ， 可 用 于 进行 预测 。 
字 节 数组 
由 固定 长 度 的 单字 节 数 组 构成 的 数据 结构 ， 可 以 存储 任何 类 型 的 信息 (数字 、 字 符 串 、 
文件 的 内 容 )， 并 且 非 常 一 般 化 ， 因 此 作为 行 键 用 于 HBase。 男 请 参见 “ 行 键 ”。 





























cascading 
Driven, Inc. 的 不 关心 规模 的 数据 应 用 程序 开发 框架 ， 为 MapReduce 提供 了 高 级 抽象 。 
通常 用 于 将 数据 流 或 多 部 分 作业 定义 为 有 向 无 环 图 。 

集中 管理 集群 
一 个 拥有 角色 不 同 的 两 个 节点 的 计算 集群 ， 分 别 是 manager (master 节点 ) 和 worker 节 
点 。 集 群 中 有 一 个 或 多 个 协调 管理 节点 ， 集 中 决策 ， 无 须 共识 。 管 理 节 点 负责 数据 的 完 
整 性 、 协 调 性 、 一 致 性 ， 并 处 理 客户 端 请 求 。 另 请 参见 “对 等 集群 ”。 

质心 
在 无 监督 机 器 学 习 ( 聚 类 ) 中 ， 质 心 是 特征 空间 中 的 一 个 点 ， 定 义 了 集群 的 中 心 。 尽 管 
不 是 所 有 聚 类 算法 都 有 质心 (生成 中 心 )， 但 是 那些 有 质心 的 算法 将 质心 定义 为 簇 中 所 
有 点 的 距离 的 平均 。 

通道 
在 计算 机 科学 中 ， 通 道 指 信息 流动 的 途径 。 这 里 指 的 是 Apache Flume 中 的 通道 ， 它 们 
是 被 动 存储 区 或 缓冲 区 ， 保 存 事件 信息 直到 它们 被 下 游 数 据 槽 收集 。 

点 击 率 
衡量 以 引导 用 户 浏览 额外 信息 为 目的 的 电子 邮件 、 网 页 或 广告 的 有 效 性 。 当 用 户 单 击 超 
链接 时 ， 处 理 超 链接 请 求 的 服务 器 会 写 入 一 条 日 志 记 录 ， 从 而 获取 点 击 率 。 例 如 ， 可 以 
测量 购物 车 应 用 程序 中 “购买 ”按钮 的 点 击 率 。 

client 
一 般 来 说 指 某 个 计算 服务 或 资源 的 请 求 者 ， 通 常 是 人 类 用 户 。 本 书 提 到 的 client 指 发 送 
Web 请 求 、 提 交 MapReduce 作业 的 人 ， 或 Spark 应 用 程序 中 驱动 程序 所 在 的 计算 机 。 
也 可 以 由 代理 代表 client 进行 日 常 工作 。 

闭 包 
一 个 绑 定 到 自己 的 封 闲 执行 环境 的 函数 ， 环 境 中 有 约束 变量 。 因 为 环境 将 被 赋予 的 
变量 映射 到 外 部 函数 ， 所 以 这 些 变量 不 能 被 外 部 进程 修改 ， 这 使 得 闭 包 可 用 于 分 布 
RE Fs 

云 计 算 
使 用 远程 数据 中 心 的 共享 计算 资源 (而 不 是 利用 本 地 服务 器 或 个 人 设备 )。 共 享 计算 资 
源 通常 是 弹性 的 ， 这 意味 着 你 可 以 根据 需要 扩大 和 收缩 资源 的 使 用 和 分 配 。 
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集群 
通常 指 执行 集体 或 相关 计算 的 设备 的 集合 。 在 Hadoop 中 ， 指 运行 HDFS 和 YARN 守护 
程序 的 一 组 服务 器 或 计算 机 。 
系数 
在 线性 模型 中 ， 系 数 是 定义 因 变 量 空间 中 的 超 平面 的 数值 向 量 。 你 可 以 通过 求 变量 问 
和 系数 的 点 积 (或 线性 组 合 ) 来 预测 目标 值 。 
协同 过 滤 
基于 许多 用 户 (协同 ) 的 集体 偏好 ， 自 动 提供 推荐 (过滤 掉 大 量 可 能 的 项 目 ) 的 方法 。 
协同 过 滤 技 术 通 常 是 使 用 机 器 学 习 算 法 开发 的 模型 ， 用 于 作出 影响 用 户 行为 的 预测 。 
collector 
一 种 特殊 的 Flume 代理 类 型 ， 用 于 监听 来 自 多 个 上 游 代 理 的 数据 ， 聚 合 其 输出 ， 然 后 将 
输出 收集 到 日 志文 件 、HDFS 或 HBase。 








二 



























































列 族 
HBase 中 的 一 组 相关 列 ， 共 享 相同 的 前 级 ， 并 且 逻 辑 上 和 物理 上 都 存储 在 一 起 。 
面向 列 / 列 式 数据 库 





内 部 按 列 (而 不 是 按 行 ) 存储 数据 的 数据 库 系 统 ， 尤 其 适合 于 在 选 定 列 执行 聚合 的 
OLAP 用 例 。 
满足 交换 律 的 
在 数学 中 ， 无 论 运 算 以 什么 顺序 执行 ， 满 足 交 换 律 的 运算 都 返回 相同 的 结果 。 满 足 
交换 律 的 运算 在 分 布 式 计算 中 很 重要 ， 因 为 它 允 许 数据 以 任何 顺序 进入 ， 并 返回 相 
同 的 结果 。 


可 比较 的 
具体 是 指 可 以 使 用 不 等 式 (例如 大 于 ) 来 比较 两 个 对 象 。Java 和 Python 都 提供 了 数据 
模型 ， 通 过 定义 必须 返回 不 等 式 结果 的 方法 ， 人 允许 对 象 比 较 。 


复杂 键 
不 是 简单 或 原始 类 型 (例如 整数 或 字符 串 ) 的 键 (例如 键 / 值 对 中 的 键 )。 大 多 数 复杂 
键 是 复合 键 的 形式 ， 其 他 类 型 的 复杂 键 可 以 是 租 套 数据 类 型 (例如 字典 )， 或 可 以 表示 
任意 数据 的 字 节 数组 。 另 请 参见 “复合 键 ”。 

复合 键 
由 两 个 或 多 个 简单 键 组 成 的 键 (例如 键 / 值 对 中 的 键 )， 通常 存储 在 元 组 中 。 复 合 键 对 
于 map 阶段 和 reduce 阶段 之 间 数 据 组 织 ， 以 及 作业 之 间 的 数据 组 织 很 重要 。 

计算 

在 本 书 中 ， 指 使 用 计算 机 处 理 器 对 某 些 数据 执行 计算 。 这 里 的 计算 与 “存储 ”不 同 ， 它 
作用 于 数据 输入 并 产生 数据 输出 。 

无 冲突 的 复制 数据 类 型 (conflict-free replicated data type，CRDT) 
一 种 特殊 的 数据 结构 ， 可 以 通过 满足 结合 律 和 满足 交换 律 的 运算 并 发 地 变化 。CRDT 在 分 
布 式 系 统 中 提供 最 终 的 一 致 性 和 单调 性 (不 能 回 深 )。 另 请 参见 “累加 器 ”和 “计数 器 ”。 













































































一 致 性 
分 布 式 计算 的 属性 ， 其 中 单个 任务 的 失败 不 会 影响 最 终结 果 ， 也 表示 分 布 式 系统 中 的 所 
有 市 点 都 会 看 到 相同 的 数据 视图 。 

列 联 表 
具有 两 个 维度 的 表格 ， 人 允许 检查 分 类 变量 之 间 的 关系 。 表 维度 的 交点 (每 个 单元 格 ) 包 
含 每 个 维度 的 分 类 值 的 共 现 频率 。 

计数 器 
在 MapReduce 中 ,计数器 是 一 个 共享 变量 ， 只 能 以 固定 的 量 递增 。 因 为 求 和 是 满足 结 
合 律 的 ， 递 增 的 顺序 并 不 重要 ， 所 以 可 以 在 分 布 式 环境 中 放心 使 用 计数 器 。 男 请 参见 
“累加 器 ”。 


守护 进程 
一 种 在 后 台 运 行 的 计算 机 软件 ， 不 需要 用 户 输 入 。 通 常 作 为 一 种 服务 ， 监 听 网 络 上 传 入 
的 信息 并 进行 适当 响应 (服务器)。 


数据 分 析 师 
主要 关注 数据 产品 开发 的 描述 和 推测 的 数据 科学 家 ， 工 作 内 容 通 常 与 建 模 、 特 征 工程 和 
探索 相关 。 田 请 参见 “数据 建 模 师 ”。 

数据 应 用 程序 
一 种 软件 应 用 程序 ， 用 于 处 理 大 量 的 领域 特定 数据 。 例 如 ，Microsoft Excel 是 一 种 数据 
应 用 程序 ， 用 于 处 理 电 子 表格 或 财务 方面 的 数据 。 另 请 参见 “数据 产品 ”。 


数据 工程 师 
主要 关注 数据 技术 的 数据 科学 家 ， 工 作 通 常 与 软件 开发 、 数 据 库 工 具 和 计算 基础 设施 有 
关 ; 

数据 流 
在 数据 流 中 ， 一 个 单位 的 数据 或 事件 (例如 单个 日 志 语 句 ) 从 源流 经 一 系列 跃 点 到 达 下 
一 个 目的 地 。 

数据 湖泊 
一 个 存储 系统 ， 用 于 以 原始 (被 采集 的 ) 格式 存储 大 量 原始 数据 ， 一 般 采 用 无 格式 或 半 
结构 化 格式 。 通 常 在 数据 湖泊 中 应 用 提取 、 转 换 和 加 载 (ETL) 操作 来 提取 本 地 数据 集 

市 ， 将 其 用 于 下 游 计 算 。 

数据 本 地 计算 
一 种 分 布 式 计算 概念 ， 则 在 减少 所 需 的 网 络 流 量 。 市 点 对 其 本 地 存储 的 数据 进行 计算 ， 
而 不 试图 从 集群 中 的 其 他 位 置 获取 数据 。 

数据 挖掘 
分 析 不 同 来 源 的 数据 以 生成 新 信息 或 获取 更 深入 洞 见 的 过 程 。 

数据 建 模 师 
数据 科学 家 的 分 支 ， 根 据 统计 和 机 器 学 习 模 型 对 数据 进行 探索 和 解释 。 
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数据 并 行 
一 种 在 多 个 处 理 器 之 间 进 行 计 算 的 方法 ， 其 中 数据 分 布 在 不 同 的 节点 上 ， 各 个 节点 同时 
对 数据 应 用 相同 或 相似 的 计算 。 

数据 产品 
自 适应 的 、 广 泛 适 用 的 经 济 引 擎 ， 从 数据 中 获取 价值 ， 通 过 影响 人 类 行为 或 通过 对 新 数 
据 进 行 推论 或 预测 ， 产 生 更 多 数据 。 

数据 科学 
创建 和 开发 数据 产品 所 涉及 的 工作 流 和 过 程 。 

数据 科学 流水 线 
描述 数据 科学 分 析 过 程 的 教学 模式 。 流 水 线 规定 了 一 个 线性 过 程 ， 数 据 在 其 间 被 采集 、 
整理 、 计 算 、 建 模 并 最 终 得 以 可 视 化 。 

数据 科学 家 
他 们 是 拥有 强大 统计 学 背景 的 程序 员 ， 是 具备 高 超 程序 设计 能 力 的 分 析 师 ， 是 非常 了 解 
数据 如 何 影 响 可 视 化 的 设计 师 ， 或 是 在 构建 数据 产品 方面 富有 创新 思想 的 领域 专家 。 在 
任何 情况 下 ， 数 据 科 学 家 都 是 全 能 的 通才 ， 能 够 轻松 学 习 新 的 方法 来 处 理 数据 。 

数据 仓库 
大 型 数据 存储 ， 通 常 为 关系 型 ， 包 含 一 个 组 织 多 个 维度 或 多 个 方面 的 数据 。 数 据 仓 库 通 
常 以 “ 星 型 模式 ”组 织 ， 以 便 在 事务 成 本 和 在 线 异步 处 理 之 间 取 得 平衡 。 另 请 参见 “ 企 
业 数 据 仓库 ”(enterprise data warehouse，EDW )。 

数据 库 
简单 来 说 ， 就 是 以 电子 格式 存储 的 数据 的 集合 。 然 而 ， 它 通常 是 “数据 库 管 理 系 统 ” 的 
缩写 。 数 据 库 管理 系统 是 一 个 软件 应 用 程序 ， 负 责 存储 在 磁盘 上 的 数据 的 组 织 、 管 理 和 
访问 。 





































































































DataFrame 
一 种 数据 结构 ， 指 的 是 以 行 (案例 或 实例 ) 和 列 (特征 或 度量 ) 结构 化 的 表格 数据 。 
DataFrame 从 R 编程 语言 就 开始 流行 ， 并 在 Python (通过 Pandas 库 ) 和 SparkSQL ( 现 
在 的 Spark DataFrame) 中 实现 。 


DataNode 
指 HDFS 中 ， 运 行 在 集群 中 每 个 存储 节点 上 的 服务 ， 提 供 数 据 复制 。DataNode 与 
NameNode 连接 ， 以 提供 和 分 布 式 存储 状态 有 关 的 信息 ， 并 响应 客户 端 对 文件 系统 操作 
的 请 求 。 

决策 空间 
间 机 器 学 习 中 ， 由 实例 特征 给 定 的 多 个 维度 定义 的 空间 中 的 一 个 区 域 ， 决 策 是 针对 实例 
特征 的 。 决 策 空 间 越 大 ， 模 型 的 通用 性 越 强 。 男 请 参见 “特征 空间 ”。 

声明 式 语言 
指 编程 中 的 一 种 非 命 令 式 语言 ， 让 程序 员 在 不 明确 列 出 从 输入 到 输出 应 采取 什么 步骤 的 
情况 下 描述 所 需 结 果 。SQL 是 一 种 声明 式 语 言 ， 而 Python 不 是 。 















































去 规范 化 
通过 分 离 关 注 点 ， 规 范 化 的 数据 存储 在 多 张 表 中 。 去 规范 化 指 将 这 些 数据 描述 为 单 张 表 
的 过 程 ， 通 常 通 过 使 用 JOIN 函数 。 去 规范 化 的 数据 以 元 余 为 代价 ， 形 成 集中 的 单个 完 
整 的 记录 。 


反 序 列 化 
将 数据 〈 通 常 是 软件 中 的 对 象 ) 的 字符 串 或 字 节 表示 加 载 或 转换 回 可 由 程序 使 用 的 运行 
表示 的 过 程 。 


分 布 式 缓存 
一 种 MapReduce 工具 ， 类 似 于 Spark 的 广播 变量 。 在 执行 任务 之 前 ， 用 于 计算 的 所 有 
节点 所 需 的 文件 〈 例 如 停 用 词 列表 、 查 找 表 等 ) 从 HDFS 被 复制 到 每 个 worker 节点 。 

分 布 式 计算 
一 种 软件 或 计算 系统 ， 其 处 理 组 件 位 于 多 台 计 算 机 上 ， 互 相 之 间 通 过 网 络 通信 ， 通 过 消 
息 传递 协调 计算 。 分 布 式 计算 允许 多 台 计 算 机 并 行 工作 ， 提 供 了 性 能 优势 。 但 是 由 于 协 
调 需求 ， 它 通常 要 求 算法 的 结构 针对 分 发 专门 设计 。 

分 布 式 存储 
数据 存储 在 安装 在 多 台 主 机 上 的 多 个 磁盘 上 。 为 了 访问 数据 ， 需 要 网 络 流量 来 定位 和 获 
取 所 请 求 的 数据 。 分 布 式 存 储 确保 了 数据 本 地 计算 会 发 生 ， 因 为 数据 已 经 位 于 将 发 生 处 
理 的 地 方 了 。 此 外 ， 大 多 数 分 布 式 存 储 系统 还 复制 数据 ， 让 多 个 主机 存储 数据 的 元 余 副 
本 ， 防 止 数据 丢失 。 


领域 专家 
数据 团队 成 员 ， 对 建 模 领域 有 深入 了 解 。 特 征 工程 过 程 需 要 领域 专家 在 预测 性 和 系统 方 
面 的 直觉 来 指导 模型 运行 。 领 域 专家 通常 也 是 敏捷 开发 的 客户 ， 为 工程 和 分 析 过 程 提 供 
引导 。 

企业 数据 仓库 ‘EDW) 
用 于 支持 企业 级 数据 报告 和 分 析 的 中 央 数 据 存储 库 ， 被 视 为 大 多 数 商业 智能 环境 的 核心 
组 件 。 


可 执行 文件 
可 以 在 计算 机 上 执行 的 程序 。Hadoop Streaming 可 将 可 通过 $PATH 变量 定位 的 可 执行 程 
序 作为 mapper 或 reducer。 例 如 ，Python 可 执行 文件 (拥有 执行 权限 和 指定 解释 器 的 
shebang 的 Python 脚本 ) 可 用 于 MapReduce 编程 。 
执行 计划 
图 或 树 ， 用 于 描述 可 执行 过 程 或 函数 的 顺序 和 数据 流 。Spark 应 用 程序 通过 一 系列 转换 
和 一 个 最 终 被 应 用 的 动作 来 定义 执行 计划 。SQL 和 HiveQL 是 声明 式 语 言 ， 必 须 由 底层 
系统 转换 为 执行 计划 。 
executor 
在 Spark 中 ，executor 是 运行 在 每 个 worker 节点 上 的 一 个 进程 ， 代 表 集 群 管理 器 (YARN 
上 的 Spark ApplicationMaster) 和 驱动 程序 中 的 SparkContext 来 管理 任务 和 数据 服务 。 
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容错 性 
如 有 果 一 个 组 件 出 现 故障 ， 不 应 该 导致 整个 系统 出 现 故障 。 系 统 应 优雅 地 降级 到 较 低 的 性 
能 状态 。 如 果 故 障 组 件 恢复 ， 应 该 能 重新 加 入 系统 。 

特征 空间 
指 机 器 学 习 中 ， 由 实例 的 属性 (也 被 称 为 特征 ) 定义 的 空间 。 特 征 空间 还 包括 向 更 高 维 
度 的 映射 一 一 对 特征 应 用 函数 从 而 创建 新 值 。 例 如 ， 给 定 有 6 个 因 变 量 的 一 般 线性 模 
型 ， 在 特征 空间 中 有 6 个 维度 来 适应 超 平面 。 但 对 于 二 次 多 项 式 回归 ， 由 于 平方 映射 将 
应 用 于 原先 的 6 个 因 变 量 ， 所 以 特征 空间 将 有 12 个 维度 。 另 请 参见 “决策 空间 ”。 


过 滤 

在 国 数 式 编 程 中 ， 过 着 器 是 一 个 国 数 。 它 接受 另 一 个 国 数 和 一 个 集合 ， 并 返回 一 个 新 的 
集合 ， 新 集合 仅 包含 映射 到 过 滤 函 数 返回 True 的 元 素 。 换 名 话 说， 过 滤 函 数 是 一 个 测 
试 ， 确 定 一 个 元 素 是 否 属于 一 个 较 小 的 新 集合 。 

第 一 范式 
规范 化 数据 库 中 的 关系 ( 表 ) 的 属性 ， 使 得 每 列 只 包含 原子 值 ， 而 每 行 的 该 列 只 包含 一 
个 值 。 例 如 ， 在 这 种 范式 下 ， 属 性 不 能 是 列表 。 


拟 合 模型 
将 超 参 数 化 模型 形式 拟 合 到 数据 的 结果 ， 通 常 通过 优化 函数 ， 使 模型 参数 能 够 基于 新 数 
据 进 行 预测 。 拟 合 模 型 是 机 器 学 习 训练 的 产物 。 


函数 式 编程 
一 种 编程 风格 ， 计 算 在 其 中 被 视 为 函数 的 评估 ， 用 于 避免 状态 改变 或 数据 突变 。 因 此 ， 
六 数 式 编程 是 分 布 式 计算 的 理想 选择 ， 因 为 需要 固定 状态 和 函数 处 理 来 确保 协调 一 致 。 

可 通用 的 

在 机 器 学 习 中 ， 如 果 一 个 模型 可 以 根据 未 知 的 输入 数据 作出 很 好 的 预测 ， 那 么 就 称 它 为 
可 通用 的 。 如 果 一 个 模型 拟 合 不 足 ， 那 么 就 不 能 将 该 模型 推广 到 更 大 的 决策 空间 ， 如 果 
一 个 模型 过 度 拟 合 并 仅 是 记 住 了 数据 ， 那 么 即使 在 本 地 决策 空间 中 ， 它 对 未 知 数据 的 预 
测 也 是 不 正确 的 。 

产生 式 模 型 
使 用 联合 概率 分 布 ， 而 不 是 条 件 概率 分 布 〈 判 别 式 模型 ) 来 确定 数据 如 何 生成 的 模型 。 

针对 分 类 器 ， 生 成 式 模型 对 什么 分 类 最 可 能 产生 信号 作出 了 解答 。 

全 局 解释 器 锁 (global interpreter lock，GIL) 

解释 型 语言 中 的 一 种 机 制 ， 用 于 同步 线程 的 执行 ， 确 保 任 何 时 候 只 有 一 个 线程 在 执行 ， 
以 保护 非 线程 安全 的 内 存 。GIL 是 Python 结构 上 的 一 部 分 ， 让 Python 先天 不 支持 并 发 
性 ， 若 想 在 Python 中 实现 并 行 性 ， 必 须 使 用 多 个 进程 ， 且 每 个 进程 都 有 自己 的 GIL。 

Google 的 BigTable 架构 
BigTable 是 一 种 分 布 式 存储 系统 ， 用 于 管理 可 以 扩展 到 非常 大 的 结构 化 数据 。Chang 等 
人 在 Google 2006 年 的 论文 “Bigtable: A Distributed Storage System for Structured Data” 
中 对 此 进行 了 详细 讨论 。 



















































































图 形 分 析 

一 种 分 析 ， 用 于 评估 结构 为 以 边 相连 的 顶点 的 数据 。 顶 点 和 边 都 可 以 包含 数据 ， 并 且 可 
以 通过 遍历 来 计算 这 种 形式 的 数据 集 (而 不 是 矩阵 形式 的 数据 集 )。 遍 历 本 质 上 是 可 并 
行 化 的 ， 因 此 ， 图 形 算法 可 以 立即 应 用 于 大 数据 环境 中 。Spark GraphX 这 样 的 库 提供 了 
图 形 分 析 工 具 。 


Hadoop Pipes 
一 个 内 部 MapReduce 系统 ， 人 允许 C++ 代码 访问 HDFS 并 执行 mapper 和 reducer。Pipes 
与 Streaming 类 似 ， 都 将 Pipes 代码 分 割 为 独立 的 应 用 程序 特定 的 库 。 但 与 Streaming 不 
同 的 是 ，Pipes 支持 类 型 化 的 字 节 序列 化 和 更 全 面 的 API。 


Hadoop Streaming 
MapReduce 应 用 程序 的 实用 程序 ， 人 允许 将 任何 可 执行 文件 用 作 mapper 和 reducer。 
Hadoop Streaming 本 身 就 是 一 个 MapReduce 应 用 程序 ， 它 通过 标准 输入 将 数据 传输 到 可 
执行 文件 ， 然 后 通过 标准 输出 和 标准 错误 从 可 执行 文件 中 收集 信息 。Hadoop Streaming 
让 Python 和 R 开发 人 员 能 编写 MapReduce 代码 。 


可 散 列 的 
在 Python 中 ， 如 果 一 个 对 象 拥有 一 个 在 其 生命 周期 内 永远 不 会 改变 的 散 列 值 ， 那 么 该 
对 象 就 是 可 散 列 的 。 因 此 ， 可 散 列 的 对 象 是 不 可 变 对 象 ， 或 者 是 通过 其 内 存 地 址 进行 
散 列 的 类 的 实例 。 所 有 可 以 用 作 字 典 中 的 键 的 内 容 都 是 可 散 列 的 〈 例 如 非 列 表 或 其 他 
字典 )。 

HDFS 
Hadoop 分 布 式 文件 系统 ，Hadoop 的 两 个 主要 组 件 之 一 。HDFS 通过 在 集群 上 实现 三 种 
类 型 的 服务 来 提供 分 布 式 存储 ， 分 别 是 NameNode、Secondary NameNode 和 DataNode。 

高 基数 

间 列 或 数据 属性 的 值 非常 罕见 或 各 不 相同 (每 条 记录 都 有 一 个 值 )。 高 基数 的 列 难以 分 

析 或 聚合 ， 自 动 数据 类 型 检测 也 通常 不 起 作用 。 

Hive 
一 种 为 HDFS 中 存储 的 数据 提供 类 SQL 接口 的 系统 。Hive 让 数据 科学 家 能 将 Hadoop 
视 为 分 布 式 数据 仓库 ， 并 能 以 结构 化 方式 并 行 执 行 OLAP 操作 。 

Hive CLI 
Hive 命令 行 接口 ， 与 Hue 打包 在 一 起 。 它 提供 了 一 个 交互 式 shell， 用 于 使 用 Hive 并 执 
行 HiveQL 语句。 




























































































Hive metastore 
Hive 使 用 的 数据 库 ， 用 于 存储 HDFS 上 有 关 Hive 表 和 分 区 的 元 信息 。 
HiveQL 
Hive 查询 语言 ， 属 于 ANSI SQL 子 集 的 Hive 数据 定义 语言 (Data Definition Language， 
DDL ) 。 











假设 驱动 开发 
敏捷 数据 产品 开发 方法 ， 用 假设 替代 需求 ， 并 尝试 使 迁 代 敏捷 开发 过 程 与 实验 、 观 察 和 
重新 定义 的 迭代 科学 方法 模型 相 匹配 。 














恒 等 函 数 
一 个 总 是 返回 与 参数 相等 的 值 的 函数 。 在 数学 中 ， 这 表示 为 fb = x。 
不 可 变 的 





不 随时 间 改 变 或 无 法 改变 。 在 Python 中 ， 不 可 变 对 象 在 运行 时 无 法 修改 ， 例 如 元 组 、 
字符 串 、 整 数 或 布尔 值 。 不 可 变 对 象 提供 了 许多 好 属性 ， 例 如 安全 性 (对象 被 传递 给 函 
数 时 不 会 发 生意 外 突变 ) 、 紧 凑 性 〈 所 需 内 存 减 少 ) 和 散 列 的 可 比 性 。 


索引 
从 较 长 形式 的 数据 导出 汇总 数据 结构 的 计算 ， 以 便 快 速 查找 各 个 记录 。 索 引 作 为 一 个 预 
处 理 步 又， 用 来 提高 下 游 计 算 的 速度 。 
采集 
数据 采集 是 指 从 外 部 源 收集 数据 并 在 本 地 计算 环境 管理 数据 的 手动 或 自动 过 程 。 在 大 数 
据 环境 中 ， 采 集 通 常 意味 着 并 行 处 理 输 入 数据 流 ， 以 便 及 时 获取 数据 。 
输入 /输出 
在 编程 中 ,输入 是 提供 给 进程 或 函数 用 以 计算 的 数据 ， 计 算 的 结果 就 是 输出 。 通 常 ， 此 
形式 中 的 输入 /输出 (input/output，I1/O) 是 指 从 磁盘 收集 数据 ， 将 其 发 送 到 处 理 
后 将 结果 写 回 磁盘 的 过 程 。 


交互 式 分 析 
一 种 技术 ， 将 计算 机 在 大 量 数据 上 进行 重复 任务 的 计算 能 力 ， 与 能 够 从 全 局 层面 识别 模 
式 和 一 般 性 的 人 类 认 知 理解 力 相 结合 。 交 互 式 分 析 可 以 引导 自动 模型 生成 ， 或 通过 可 视 
化 来 调整 模型 的 行为 。 
倒 排 索引 
一 种 特殊 索引 ， 将 单词 、 数 字 、 用 户 或 重要 信息 等 内 容 映射 到 它们 在 数据 库 、 文 件 、 文 
档 或 文档 集合 中 的 位 置 。 
帮 代 计算 
一 种 重复 计算 ,其 中 单个 计算 块 被 定义 为 迭代 ， 每 次 迭代 重复 ， 使 上 一 个 迭代 的 输出 成 
为 下 一 个 迭代 的 输入 。 和 迭代 和 递归 是 计算 机 算法 的 基本 构件 。 
和 迭 代数 据 处 理 
迭代 计算 的 一 种 ， 指 一 种 算法 对 相同 数据 进行 多 次 处 理 ， 将 每 个 迭代 的 结果 传递 到 下 一 
次 迭 代 ， 但 不 改变 数据 。 优 化 就 是 迭代 数据 处 理 的 一 个 例子 ， 一 次 数据 处 理 用 于 计算 误 
差 ， 下 一 次 妈 代 修改 参数 以 缩小 误差 ， 之 后 算法 继续 欠 代 ， 直 到 误差 低 于 某 个 小 阔 值 。 
Java 数据 库 连接 (Java database connectivity，JDBC) 
基于 Java 的 接口 ， 人 允许 客户 端 使 用 兼容 的 适配器 访问 支持 JDBC 的 数据 库 。Sqoop 使 用 
JDBC 连接 器 与 第 三 方 数 据 库 集成 。 
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作业 
在 分 布 式 计算 中 ， 作 业 是 指 完整 的 计算 ， 由 多 个 并 行 运行 的 独立 任务 组 成 。 

作业 链 
MapReduce 应 用 程序 中 使 用 的 一 种 技术 ， 通 过 将 前 一 个 作业 的 输出 用 作 下 一 个 作业 的 
输入 ， 将 一 个 或 多 个 MapReduce 作业 链接 在 一 起 ， 从 而 构建 更 复杂 的 算法 。 


作业 客户 端 
客户 端 是 作业 的 发 起 者 ， 是 最 关心 结果 的 一 方 。 客 户 端 可 以 在 作业 运行 期 间 保持 连接 ， 
也 可 以 先 让 作业 在 集群 上 独立 运行 ， 过 后 再 返回 以 查找 结果 。 

作业 配置 
用 于 定义 范围 的 作业 参数 ， 例 如 应 该 使 用 的 mapper、reducer 或 executor 的 数量 。 


Jupyter notebook 
以 前 的 iPython notebook。notebook 是 结合 了 可 执行 代码 和 富 文本 的 文档 ， 旨 在 以 一 
种 演示 文稿 的 格式 展示 分 析 及 其 结果 。 因 此 ， 它 们 被 广泛 用 于 分 析 ， 从 而 显示 可 重 现 
的 结果 。 


Kerberos 
用 于 验证 服务 请 求 的 安全 方法 ， 可 用 于 HDFS 和 YARN API 以 及 集群 保护 。 


键 / 值 
一 种 联结 的 数据 项 ， 其 中 键 是 与 数据 值 相关 联 的 唯一 标识 符 。 键 / 值 对 将 关系 (由 键 定 
义 ) 分 发 到 多 个 处 理 器 ， 然 后 聚合 (reduce) 其 结果 。 

键 空 间 
系统 中 用 于 计算 的 键 / 值 对 中 键 的 域 。 键 空间 定义 了 数据 如 何 分 区 到 reducer， 以 及 键 值 
对 如 何 分 组 和 比较 。 


lambda 架构 
一 种 系统 设计 ， 能 应 对 不 断 采集 到 的 、 需 要 使 用 分 布 式 计算 框架 (如 MapReduce 或 
Spark Streaming) 及 时 处 理 的 大 量 数据 。lambda 架构 使 用 消息 队列 前 沿 来 缓冲 传 入 到 
处 理 速度 可 能 较 慢 的 应 用 程序 中 的 数据 。 这 些 应 用 程序 执行 初步 计算 并 将 结果 存储 在 
speed 表 中 ， 执 行 最 终 计算 并 将 结果 存储 在 batch 表 中 。 客 户 端 查询 近似 的 speed 表 及 时 
获取 结果 ， 依 靠 batch 表 进 行 更 准确 的 分 析 。 

lambda 函数 
在 Python 中 ，lambda 关键 字 用 于 定义 未 绑 定 到 标识 符 的 匿名 国 数 。 另 请 参见 “匿名 国 
数 ” 和 “ 闭 包 ”。 

延迟 执行 
一 种 将 表达 式 评估 延迟 到 必要 时 刻 的 策略 ， 从 而 达到 最 小 化 计算 和 重复 性 的 目的 。 在 
Spark 中 ， 应 用 于 RDD 的 转换 操作 通过 生成 转换 过 程 (lineage) 图 来 延迟 执行 ， 仅 在 
对 RDD 应 用 动作 操作 时 才 执 行 。 










































































词汇 多 样 性 
自然 语言 语料库 中 的 单词 数量 与 词汇 量 的 比例 ， 例 如 一 个 单词 在 语料库 中 的 平均 使 用 次 
数 。 词 汇 多 样 性 用 于 监测 文本 数据 的 异常 变化 。 
转换 过 程 〈lineage) 
在 Spark 中 ， 每 个 RDD 存储 通过 应 用 转换 从 其 他 数据 集 构建 出 它 的 机 制 。 转 换 过 程 让 
RDD 能 在 故障 时 本 地 重建 ， 并 为 Spark 中 的 容错 性 提供 基本 机 制 。 









































线性 作业 链 
一 种 作业 序列 ， 前 一 个 作业 的 输出 用 作 后 一 个 作业 的 输入 。 另 请 参见 “作业 链 ”。 
log4j 


一 个 开源 Java 项 目 ， 允 许 开发 人 员 控 制 日 志 消 息 输出 的 粒度 。 在 Spark 或 MapReduce 
中 修改 log4j 设置 可 以 最 小 化 控制 台 输 出 的 数量 ， 使 分 析 人 员 能 更 轻松 地 了 解 结果 。 

机 器 学 习 
发 现 数据 模式 ， 利 用 这 些 模 式 构建 模型 ， 对 新 数据 进行 预测 或 估计 的 技术 。 

map 
一 种 函数 式 编 程 技术 ， 其 中 国 数 被 应 用 于 集合 中 的 每 个 单独 元 素 ， 生 成 一 个 新 集合 作为 
每 个 map 的 输出 。map 本 质 上 是 可 并 行 的 ， 因 为 将 map 函数 应 用 于 元 素 不 依赖 于 任何 
其 他 map。 

master 节点 
集群 中 的 一 个 节点 ， 实 现 了 一 个 主 守护 进程 (用 于 管理 集群 中 的 存储 和 计算 的 进程 )。 
主 进程 包括 ResourceManager、NameNode 和 Secondary NameNode。 

















最 大 值 
在 描述 性 统计 中 ， 数 据 集中 的 最 大 值 。 

平均 值 
在 描述 性 统计 中 ， 通 过 将 数据 集中 数值 之 和 除 以 值 的 数量 ， 来 描述 数据 的 集中 趋势 的 


值 。 
中 位 数 
在 描述 性 统计 中 ， 有 序数 据 列表 中 的 中 间 值 。 
微 框架 
一 个 术语 ， 指 简约 的 应 用 程序 框架 。 本 书 使 用 Python 和 Hadoop Streaming 构建 了 一 个 
MapReduce 的 微 框 架 。 

















最 小 值 
在 描述 性 统计 中 ， 数 据 集 中 的 最 小 值 。 
众 数 





在 描述 性 统计 中 ， 数 据 集中 最 常 出 现 的 值 。 


模型 族 (model family) 
在 机 器 学 习 中 ， 模 型 族 从 宏观 角度 描述 了 决定 预测 的 相关 变量 之 间 的 联系 。 例 如 ， 基 于 














系数 向 量 与 因 变 量 向 量 的 线性 组 合 ， 线 性 模型 描述 了 对 连续 目标 值 了 的 预测 。 


模型 形式 (model form) 
在 模型 拟 合 之 前 对 模型 轮廓 的 说 明 ， 特 别 定 义 了 超 参数 ， 以 及 拟 合 模型 的 特征 空间 。 例 
如 ， 给 定 支 持 向 量 机 模型 族 ， 模 型 形式 可 能 是 拥有 RBF 核 函数 、 人 徊 马 值 为 0.001 且 松 
弛 变量 为 1 的 SVM。 

munging 
munging 最 初 来 自 麻 省 理工 学 院 模 型 训练 小 组 ， 指 的 是 将 数据 混合 在 一 起 形成 的 统一 或 
规 一 化 整体 ， 可 能 具有 破坏 性 。 

NameNode 
HDFS 的 master 节点 ， 负 责 集 群 DataNode 的 集中 协调 。NameNode 分 配 存储 资源 ， 并 
将 大 文件 拆 分 成 块 ， 在 集群 中 复制 。NameNode 还 将 客户 端 直接 连接 到 要 访问 数据 的 
DataNode。 









































集群 中 的 单个 机 器 ， 能 实现 一 些 服务 ， 特 别 是 守护 进程 服务 (如 NodeManager 和 
DataNode ) 。 





NodeManager 
YARN 中 在 集群 中 的 每 个 节点 上 运行 的 进程 或 代理 。NodeManager 负责 跟踪 和 监视 各 
个 executor (容器 ) 的 CPU 和 内 存 的 使 用 情况 以 及 节点 的 运行 状况 ， 并 将 其 报告 回 
ResourceManager。NodeManager 还 通过 调度 executor (容器 ) 在 本 地 进行 工作 ， 来 代表 
ApplicationMaster 执行 框架 作业 。 


NoSQL 
指 “ 不 仅仅 是 SQL”(not only SQL) 或 者 “ 非 关 系 型 ”(not relational) 。NoSQL 最 初 是 
一 个 标签 ， 在 一 场 讨论 数据 库 技 术 (如 Cassandra、HBase 和 MongoDB) 的 会 议 中 使 
用 。NoSQL 现在 指 不 符合 传统 关系 数据 库 管理 系统 定义 的 数据 库 ， 它 们 提供 的 领域 特 
定数 据 模型 (如 图 或 列 ) 通常 是 分 布 式 的 。 


大 数据 操作 系统 
Hadoop 的 两 大 支柱 服务 一 一 HDFS 提供 分 布 式 数 据 存储 、YARN 提供 集群 计算 资源 管 
理 为 集群 计算 提供 了 平台 ， 也 使 它 成 为 了 大 数据 的 操作 系统 。 
运行 阶段 
在 机 器 学 习 中 ,构建 阶 段 之 后 就 是 运行 阶段 。 拟 合 模型 在 此 阶段 进行 预测 (回归 分 析 作 
出 连续 值 估计 、 分 类 器 分 配 类 别 、 聚 类 确定 归属 )。 
上 线 
在 数据 产品 中 使 用 拟 合 模型 。 另 请 参见 “运行 阶段 ”。 
pairs 和 stripes 
在 矩阵 〈 例 如 单词 共 现 和 矩阵 ) 上 执行 分 布 式 计算 的 两 种 方法 。 在 pairs 方法 中 ， 和 矩阵 中 
的 行 i 和 列 j 的 每 个 单元 格 单独 映射 如 (i, 站/ 值 ， 在 stripes 方法 中 ， 每 行 i 作为 完整 的 
值 被 映射 通常 作为 列 j 的 关联 数组 。 





















































Pandas 
一 个 开源 库 ， 提 供 易 于 使 用 的 数据 结构 ， 如 Series 和 DataFrame， 可 以 应 用 多 个 数据 分 
析 工 具 。 


并 行 
两 个 计算 同时 运行 。 
可 并 行 的 


如 果 可 以 将 一 个 算法 分 解 成 可 以 同时 运行 的 离散 任务 ， 则 该 算法 被 称 为 可 并 行 的 。 可 并 
行 的 算法 有 一 个 属性 : 可 并 行 运行 的 任务 越 多 ， 算 法 的 完成 速度 就 越 快 。 














并 行 化 
算法 向 可 并 行 形式 转化 的 过 程 。 
对 等 集群 
与 集中 管理 的 集群 相反 ， 对 等 集群 是 完全 去 中 心 化 的 ， 没 有 控制 产 。 执 行 对 等 协调 的 算 














法 不 能 依赖 于 一 个 集中 的 控制 中 心 。Hadoop 和 Spark 是 集中 管理 的 集群 ， 而 Bitcoin 这 

样 的 应 用 程序 是 完全 去 中 心 化 的 ， 被 称 为 对 等 分 布 式 计算 。 
Pig 

Pig 是 一 个 大 数据 框架 ， 由 Pig Latin (一 种 用 于 表达 数据 分 析 程序 的 高 级 语言 ) 和 一 个 
编译 器 组 成 ， 后 者 可 以 将 Pig Latin 翻译 成 在 Hadoop 上 执行 的 MapReduce 作业 序列 。 
POSIX 

“可 移植 操作 系统 接口 ”(portable operating system interface) 是 IEEE 计算 机 学 会 创建 的 

系列 标准 ， 旨 在 提高 操作 系统 之 间 的 兼容 性 。 



































预测 模型 
一 种 统计 工具 ， 通 过 推断 技术 来 描述 未 来 可 能 发 生 的 行为 。 
过 程 化 语言 


与 声明 式 语言 相反 ， 过 程 化 语言 定义 了 一 个 必须 逐个 执行 的 有 序 命令 集 。Python 可 以 
使 用 过 程 化 风格 来 编写 ， 当 然 用 函数 式 风 格 或 面向 对 象 风格 也 没 问 题 。 

进程 
进程 是 正在 执行 的 计算 机 程序 的 实例 ， 包 括 完整 的 计算 环境 和 资源 。 进 程 可 以 由 并 发 运 
行 的 多 个 执行 线程 组 成 ;， 但 是 一 般 来 说 ， 当 在 分 布 式 环境 中 讨论 进程 时 ， 是 指 一 个 必须 
通过 网 络 与 其 他 程序 通信 的 独立 程序 。 


产品 印象 

在 线 营 销 术 语 ， 指 单一 用 户 有 机 会 查看 特定 的 产品 ， 通 常 是 与 超 链接 相关 联 的 产品 。 通 
过 数据 采集 技术 ， 我 们 可 以 通过 比较 生成 产品 印象 的 网 络 日 志 及 相关 的 点 击 率 来 监控 产 
品 印象 是 否 成 功 。 

投影 
入 影 是 一 种 操作 ， 针 对 由 一 组 属性 定义 的 关系 〈 表 )。 投 影 输出 一 个 新 关系 ， 丢 弃 或 排 
除 原 始 关系 中 不 在 投影 里 的 属性 ， 换 句 话 说， 投影 会 移 除 表 中 的 列 。 


























PySpark 
交互 式 Python Spark shell， 被 实现 为 命令 行 REPL (read, evaluate, print loop， 读 取 、 评 
估 、 打 印 循环 ) ， 并 由 pyspark 命令 局 动 。 


Python Spark 应 用 程序 
由 Python 编程 语言 编写 ， 调 用 Python Spark API， 通 过 spark-submit 提交 到 Spark 上 运 
行 的 应 用 程序 。 

随机 访问 
指 在 一 组 可 寻 址 元 素 内 的 任何 给 定 内 存 地 址 访问 特定 数据 项 的 能 力 ， 这 与 按照 磁盘 顺序 
读 取 数据 元 素 的 顺序 访问 相反 。 


推荐 系统 
一 个 信息 系统 ， 目 标 是 预测 用 户 对 某 些 项 目的 评级 或 偏好 。 推 荐 系统 通常 使 用 协同 过 滤 
算法 实现 ， 它 根据 类 似 的 用 户 偏好 对 项 目的 整个 空间 进行 过 滤 。 然 后 使 用 非 负 和 矩阵 分 解 
和 回归 模型 等 机 器 学 习 技 术 对 评级 进行 预测 。 


可 恢复 性 
分 布 式 系统 的 属性 ， 使 数据 不 会 在 故障 发 生 时 丢失 。 


关系 
关系 是 一 组 元 组 ， 元 组 的 每 个 元 素 都 是 数据 域 (或 数据 类 型 ) 的 成 员 。 在 数据 库 系统 
中 ， 关 系 通常 是 指 一 个 表 ， 行 的 列 都 是 带 类 型 的 。 

关系 数据 库 管理 系统 (relational database management system，RDBMS) 
根据 数据 库 、 表 、 列 、 关 系 的 关系 型 建 模 原则 组 织 数据 的 数据 库 系 统 。RDBMS 中 的 查 
询 操作 通常 使 用 SQL 查询 语言 的 某 种 变 体 。 

水 库 抽样 
一 系列 随机 算法 ， 用 于 从 n 个 项 目的 列表 中 随机 选择 个 样本 ， 其 中 是 非常 大 的 数 或 
未 知 数 。 


弹性 分 布 式 数据 集 (resilient distributed dataset，RDD) 
Spark 中 的 基本 抽象 ， 代 表 可 并 行 操作 的 、 不 可 变 的 、 分 区 的 元 素 集 合 。 


ResourceManager 
YARN 中 的 一 个 主 进程 ， 通 过 按 需 给 ApplicationMaster 分 配 资源 (可 用 的 NodeManager 
executor 实例 ) ， 来 调度 集群 上 的 计算 工作 。 基 于 预 配 置 策略 ，ResourceManager 尝试 通 
过 容量 保证 、 公 平 性 或 服务 级 别 协议 来 优化 集群 利用 率 (让 尽 可 能 多 的 节点 肯 能 忙 )。 


岭 回 归 
线性 回归 模型 族 中 的 一 个 正则 化 模型 ， 通 过 使 用 系数 的 L2 范 数 正则 化 误差 最 小 化 函数 
来 惩罚 模型 复杂 性 (从 而 减 小 模型 的 偏差 )。 使 用 L2 范 数 会 使 权重 平滑 ， 降 低 多 重 共 
线性 导致 的 方差 的 影响 。 

行 键 
在 HBase 中 ， 按 照 唯 一 的 行 键 对 行进 行 访问 和 排序 。 行 键 本 身 只 是 一 个 字 市 数组 ， 但 
是 良好 的 行 键 设计 是 在 设计 健壮 的 HBase 数据 库 数 据 访问 模式 时 最 重要 的 考虑 因素 。 
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可 扩展 性 
分 布 式 系统 的 属性 ， 使 负载 增加 (更 多 的 数据 ， 更 多 的 计算 ) 将 导致 性 能 下 降 ， 而 不 是 
故障 ， 资 源 增加 ， 容 量 也 成 比例 增加 。 

Secondary NameNode 
Secondary NameNode 每 隔 一 段 时 间 复 制 一 次 主 NameNode 镜像 的 编辑 日 志 ， 定 期 创 
建 HDFS 的 检查 点 。 它 不 是 主 NameNode 的 末代 品 或 备份 ， 而 是 在 重新 启动 时 能 让 
NameNode 更 快 恢复 。 


自 适 应 
一 些 机 器 学 习 模 型 的 属性 ， 可 以 用 新 的 信息 增 量 更 新 。 数 据 产品 本 身 应 该 是 自 适应 的 ， 
但 车 没有 增 量 更 新 ， 就 得 要 重新 训练 模型 。 
可 分 的 
数据 的 一 种 属性 ， 让 类 可 以 在 特征 空间 中 被 超 平面 分 割 或 分 离 ， 具 有 一 些 松 好 。 可 分 性 
意味 着 像 支 持 向 量 机 和 随机 森林 这 样 的 模型 将 是 非常 有 效 的 。 
序列 化 
在 数据 存储 上 下 文中 ， 序 列 化 是 一 个 过 程 ， 能 将 数据 结构 或 对 象 状 态 转换 为 可 以 存储 
〈 例 如， 存储 在 文件 或 内 存 缓冲 器 中 ， 或 者 通过 网 络 连接 链 路 传输 ) ， 并 且 之 后 能 够 在 同 
一 台 或 别 的 计算 机 环境 中 重新 构造 回来 的 格式 。 















































shebang 
在 脚本 起 始 处 的 字符 序列 #!， 由 字符 数字 符号 和 感叹 号 组 成 。 
单 节点 设置 
在 Hadoop 中 ， 单 节点 设置 在 单个 机 器 上 安装 所 有 进程 (比如 YARN、HDFS、JobHistory 








Server 等 )。 也 被 称 为 伪 分 布 式 设置 。 


数据 模 
数据 流 中 流入 数据 的 接收 器 或 目标 。 
数据 源 


可 以 是 数据 库 、 数 据 存 储 设备 或 者 进程 ， 发 送 馈 入 数据 流 的 输出 数据 ， 用 于 进一步 处 理 
或 传输 到 数据 槽 。 
垃圾 信息 
未 经 请 求 和 不 需要 的 消息 或 电子 邮件 。 
Spark Core 
构成 Spark 根本 的 程序 内 部 和 抽象 (包括 RDD API) 的 组 件 、 服 务 和 API。 
Spark Python API 
Spark 公开 的 Python 语言 的 应 用 程序 编程 接口 ， 用 于 创建 Spark 应 用 程序 。 它 提供 了 对 
Python RDD 以 及 Spark 中 许多 库 工 具 和 代码 的 访问 。 
稀 院 的 
表示 数据 中 有 相当 高 比例 的 值 或 单元 格 不 包含 实际 数据 或 为 “null”。 





















































推断 执行 
一 种 能 最 小 化 延迟 或 失败 作业 的 影响 的 技术 。 如 果 检 测 到 慢 任务 ， 则 立即 在 相同 数据 上 
分 配 新 任务 ， 获 胜 者 是 首先 完成 的 任务 。 
































分 害 
基于 某 些 标准 ， 将 数据 集 划 分 为 多 个 子 集 的 过 程 。 
分 自 
将 数据 传输 到 中 间 数 据 目标 或 检查 点 供 后 续 处 理 的 过 程 。 
独立 模式 
在 Spark 中 ， 此 模式 可 用 于 在 本 地 计算 机 的 单个 进程 中 运行 Spark。 
流 数据 


不 间断 或 无 边界 的 数据 流 ， 稳 定 且 持续 地 传输 和 处 理 。 

stripes 和 pairs 
请 参见 “pairs 和 stripes”。 

主题 专家 
主题 专家 是 数据 科学 家 ， 是 数据 团队 的 关键 成 员 。 他 们 为 数据 问题 和 模型 提供 特定 领域 
的 知识 。 另 请 参见 “领域 专家 ”。 

有 上 监督 的 
与 无 监督 机 器 学 习 相 反 ， 有 监督 机 器 学 习 将 模型 拟 合 到 数据 集 ， 正 确 答案 是 提前 知道 
的 。 分 类 和 回归 是 有 监督 机 器 学 习 的 两 个 例子 。 


任务 
一 个 YARN 作业 中 的 工作 单位 。 在 MapReduce 中 ， 任 务 是 指 执行 一 次 map 操作 或 
reduce 操作 。 


任务 并 行 
一 种 并 行 形式 ， 在 相同 或 不 同 的 数据 集 上 同时 执行 多 个 函数 来 提升 性 能 。 它 与 数据 并 
行 相反 ， 后 者 是 将 相同 的 函数 应 用 于 数据 集 的 不 同 元 素 。 一 般 来 说 ，map 是 数据 并 行 ， 


上 为 并 行 o 





























reduce 是 个 


大 数据 的 3V 
定义 大 数据 的 3 个 属性 : 容量 (volume)、 速 度 (velocity) 和 多 样 〈variety)。 另 请 参见 
转换 和 动作 
指 两 种 主要 Spark 操作 。 转 换 将 RDD 作为 输入 ， 并 产生 重新 格式 化 的 RDD 作为 输出 ， 
动作 在 RDD 上 执行 计算 ， 产 生 一 个 值 返回 到 Spark Driver。 
元 组 
一 个 有 限 的 、 不 可 变 的 有 序 元 素 的 集合 。 
无 监督 的 
与 有 监督 机 器 学 习 相 反 ， 无 监督 机 器 学 习 基 于 模式 通过 实例 之 间 的 相似 性 或 距离 来 拟 合 
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模型 。 这 些 模型 族 是 无 监督 的 ， 因 为 没有 “正确 的 ”答案 来 检验 拟 合 模型 的 结果 或 者 使 
误差 最 小 化 。 聚 类 是 无 监督 学 习 的 一 个 例子 。 

方差 

在 机 器 学 习 中 ， 方 差 是 指 给 定 特定 数据 点 的 模型 的 预测 可 变性 (例如 低 方差 可 能 表示 对 
于 预测 的 误差 量 的 置信 度 )。 随 着 方差 的 减 小 ， 偏 差 将 增 大 。 另 请 参见 “偏差 ”。 

多 样 
数据 的 结构 化 格式 (CSV、Excel、 数 据 库 等 ) 和 非 结构 化 格式 〈 图 像 、 传 感 器 数据 、 
视频 等 ) 的 范围 不 断 扩 大 。 


速度 
处 理 数据 的 速度 或 速率 。 
词汇 量 
一 个 文本 语料库 中 唯一 令 牌 (或 单词 ) 的 集合 。 




















果 
地 


等 处 理 和 存储 的 数据 的 量 。 

worker 节点 
实现 worker 守护 进程 的 节点 ，worker 守护 进程 通常 都 是 NodeManager 和 DataNode 
服务 0° 


一 NS 





工作 流 管理 
构建 可 触发 、 可 参数 化 、 可 调度 、 可 自动 化 的 可 重复 数据 处 理 作业 的 过 程 。 
数据 整理 


将 数据 从 一 种 格式 (通常 为 “原始 ”未 处 理 的 格式 ) 转换 或 映射 到 另 一 种 格式 的 过 程 ， 
使 得 下 游 进 程 可 以 轻松 消费 数据 以 进行 分 析 。 

YARN 
“Yet Another Resource Negotiator” 的 缩写 ， 是 包括 MapReduce 和 Spark 在 内 的 分 布 式 
计算 引擎 的 广义 集群 管理 框架 。 它 将 处 理 提交 给 集群 的 作业 的 资源 管理 和 作业 调度 。 









































关于 作者 


Benjamin Bengfort 是 一 位 数据 科学 家 。 他 虽然 住 在 市 里 ， 却 对 政治 (华盛顿 的 正事 ) 毫 
无 兴趣 ， 反 而 偏爱 技术 。 他 目前 正在 马里 兰 大 学 攻读 博士 学 位 ， 在 那里 学 习 机 器 学 习 和 分 
布 式 计 算 。 他 的 实验 室 里 确实 有 机 器 人 (虽然 这 不 是 他 喜欢 的 研究 领域 )， 但 令 他 忻 恼 的 
是 ， 他 们 老 是 想 给 机 器 人 配 上 刀具 或 者 餐具 一 大 概 是 为 了 什么 误 饪 大 奖 吧 。 与 其 看 一 个 
机 器 人 切 番 匣 ，Benjamin 更 喜欢 自己 在 厨房 里 研究 ， 他 热 袁 于 将 法 国 和 圭亚那 美食 融合 ， 
也 喜欢 各 种 类 型 的 烧烤 。Benjamin 是 一 名 专业 编程 人 员 ， 但 他 把 数据 科学 家 当 作 自 己 的 事 
业 。 他 的 作品 涉及 大 量 主题 ， 从 自然 语言 处 理 ， 到 使 用 Python 的 数据 科学 ， 再 到 Hadoop 
和 Spark 分 析 ， 应 有 尽 有 。 


Jenny Kim 是 一 位 经 验 丰富 的 大 数据 工程 师 。 她 开发 商业 软件 ， 也 在 学 术 界 工作 ， 在 海量 
数据 、 机 器 学 习 以 及 生产 和 研究 环境 的 Hadoop 实施 方面 有 深入 研究 。Jenny (和 Benjamin 
Bengfort 一 起 ) 建立 了 一 个 大 型 推荐 系统 ， 使 用 网 络 爬 虫 收集 服 装 产 品 的 有 关 信 息 ， 并 根 
据 交 易 提供 推荐 。 目 前 ， 她 正 与 Cloudera 的 Hue 团队 一 道 ， 试 图 构建 能 用 于 Hadoop 大 数 
据 分 析 的 直观 界面 。 


关于 封面 

《Hadoop 数据 分 析 》 的 封面 动物 是 牛 背 熙 (Bubulcus ibis)， 一 种 遍布 世界 的 白 敬 。 起 初 ， 
牛 背 萄 只 生活 在 亚洲 、 非 洲 、 欧 洲 的 部 分 地 区 ,但 在 20 世纪 ， 它 已 经 “入 侵 了 ”地 球 其 
他 大 部 分 区 域 经 历 了 一 次 乌 类 最 快速 、 最 广泛 的 自然 扩张 之 后 。 它 主要 在 热带 、 亚 执 
带 和 温带 栖息 ， 经 常 跟随 牛 或 其 他 大 型 哺乳 动物 生活 ， 以 这 些 大 型 动物 驱赶 的 昆虫 或 小 型 
背 椎 动物 为 食 ， 因 此 得 名 。 


牛 背 牙 是 一 种 白色 鸟 类 。 背 部 、 前 颈 和 头 部 在 繁殖 期 呈 橙 黄色 ; 与 配偶 交配 之 前 ,， 唉 、 腿 
和 虹膜 会 暂时 变 成 亮 红 色 。 非 繁殖 期 的 成 年 牛 背 敬 几 乎 通体 白 沁 ,黄色 唉 ， 灰 黄色 腿 。 它 
身材 矮 性 ， 灵 展 35 英寸 ~38 英寸 ( 约 为 89 厘米 ~97 厘米 ) ， 体 高 18 英寸 ~22 英寸 ( 约 为 
46 厘 米 ~56 厘米 ) ， 重 约 10 理 司 ~18 夯 司 ( 约 为 283 克 ~510 克 ) ; 通常 在 水 边 的 树木 和 
灌木 从 的 树枝 上 筑 3 

因为 与 牛 存在 共生 关系 ， 和 牛 背 欧 深 受 牧场 主 的 欢迎 ， 被 认为 是 防治 牛 身上 寄生 虫 的 生物 手 
段 。 但 另 一 方面 ， 当 大 群 牛 背 绝 在 机 场 的 草地 边 砚 食 时 ， 可 能 会 造成 飞机 的 安全 隐患 。 此 
外 ， 它 们 还 可 能 传播 动物 疾病 ， 如 心 水 病 、 传 染 性 法 氏 淖 病 甚至 新 城 疫 。 

O’Reilly 封面 上 的 许多 动物 都 已 濒临 灭绝 ， 但 它们 的 存在 对 世界 至 关 重 要 。 想 要 了 解 如 何 
帮助 它们 ， 可 以 登录 animals.oreilly.com。 








封面 图 片 来 自 Lydekker 3 Royal Natural History。 
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有 adqoop 
应 用 架构 








1 数据 分 析 实 成 





Spark 快速 大 数据 分 析 


令 由 Spark 开 发 者 及 核心 成 员 共 同 打造 

令 带领 读者 快速 掌握 用 Spark 收 集 、 计 算 、 简 化 和 保存 海量 数据 的 方 
法 ， 学 会 交互 、 和 迭代 和 增 量 式 分 析 ， 解 决 分 区 、 数 据 本 地 化 和 自 定义 
序列 化 等 问题 


作者 : Holden Karau, Andy Konwinski, Patrick Wendell, Matei Zaharia 

















译 者 : 王道 远 


mbto lole] oA: Ek 








令 Hadoop 之 父 Doug Cutting 作 序 推荐 
令 “对 Hadoop 有 所 了 解 ” 与 “能 够 使 用 Hadoop 形 成 实际 解决 方案 ” 
之 间 的 一 座 桥梁 


作者 : Mark Grover, Ted Malaska, Jonathan Seidman, Gwen Shapira 
译 者 : 郭 文 超 





Spark 高 级 数据 分 析 


4 Cloudera 公 司 数据 科学 家 联 祷 打造 ， 利 用 Spark 进 行 大 规模 数据 分 析 

令 将 Spark、 统 计 学 方法 和 真实 数据 集结 合 ， 通 过 实例 讲述 如 何 解 决 分 
析 型 问题 

令 第 2 版 即将 于 2018 年 5 月 推出 ， 敬 请 期 待 


作者 : Sandy Ryza, Uri Laserson, Sean Owen, Josh Wills 
译 者 : 著 少 成 





Python 数据 分 析 实 战 


令 了 解 Python 在 信息 处 理 、 管 理 和 检索 方面 的 强大 功能 
令 学 会 如 何 利 用 Python 及 其 衍生 工具 处 理 、 分 析 数 据 
令 详尽 探究 三 个 真实 Python 数据 分 析 案例 ， 将 理论 付 诸 实践 


作者 : Fabio Neli 
译 者 : 杜 春晓 








Eat 过 
pe ht 
回复 “大 数据 ”查看 相关 书 单 
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Hadoop 数 据 分 析 


通过 提供 分 布 式 数据 存储 和 并 行 计算 框架 ，Hadoop 已 经 从 集群 计算 的 抽 
象 演变 成 了 大 数据 操作 系统 。 本 书 从 数据 科学 的 视角 ， 介 绍 Hadoop 集 
群 计算 和 分 析 ， 重 点 关注 可 构建 的 具体 分 析 、 数 据 仓 储 技术 和 高 阶 数据 


六 
WILo 


书 中 主要 内 容 如 下 : 
四 Hadoop 和 集群 计算 背后 的 核心 概念 
罩 使 用 设计 模式 和 并 行 分 析 算 法 创建 分 布 式 数据 分 析 作 业 


加 在 分 布 式 环境 下 使 用 Apache Hive 和 HBase 进 行 数据 管理 、 数 据 挖 
掘 和 数据 仓储 


罩 使 用 5qoop 和 Apache Flume 从 关系 数据 库 采 集 数据 

国 使 用 Apache Pig 和 Spark DataFrame 编 写 复 杂 的 Hadoop 和 Spark 应 
用 程序 

四 通过 Spark MLlib 运 用 分 类 、 聚 类 和 协同 过 滤 等 机 器 学 习 技 术 





Benjamin Bengfort， 数 据 科 学 家 ， 目 前 正在 马里 兰 大 学 攻读 博士 学 
位 ， 方 向 为 机 器 学 习 和 分 布 式 计 算 ， 熟 悉 自然 语言 处 理 、Python 数 据 
科学 、Hadoop 和 Spark 分 析 等 。 


Jenny Kim， 经 验 丰 富 的 大 数据 工程 师 ， 不 仅 进行 商业 软件 的 开发 ， 
在 学 术 界 也 有 所 建树 ， 在 海量 数据 、 机 器 学 习 以 及 生产 和 研究 环境 
的 Hadoop 实 施 方 面 有 深入 研究 。 目 前 就 职 于 Cloudera 的 Hue 团 队 。 


“我 此 前 还 未 见 过 比 本 书 更 好 的 


Hadoop 框 架 讲解 。” 
一 一 Marck Vaisman 
博思 艾 伦 咨询 公司 数据 科学 家 、 
乔治 ， 华盛顿 大 学 兼职 教授 、 
数据 社区 DC 联合 创始 人 


“每 个 概念 都 得 以 清晰 明了 的 解 


读 ， 在 容易 忽略 细节 的 部 分 又 都 
有 补充 资源 ， 供 读者 深入 学 习 ， 
这 对 于 专业 人 员 和 初学 者 都 非常 
友好 。 本 书 中 的 讲解 总 是 与 示例 
相辅相成 ， 让 读者 在 学 习 之 后 又 
能 投入 实战 ， 深 入 了 解 系统 功 
能 一 一 我 认为 这 才 是 熟悉 新 领域 
的 关键 所 在 。” 

一 一 Amazon 读 者 
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如 果 您 对 本 书 内 容 有 疑问 ， 可 发 邮件 至 contact@turingbook.com， 会 有 编辑 
或 作 译 者 协助 答疑 。 也 可 访问 图 灵 社 区 ， 参 与 本 书 讨 论 。 
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ebook@turingbook.com。 
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